LLM Course documentation
<i> Tokenizer </i> , coché !
0. Configuration
1. Les transformers
2. Utilisation de 🤗 Transformers
3. Finetuner un modèle pré-entraîné
4. Partager des modèles et des tokenizers
5. La bibliothèque 🤗 Datasets
6. La bibliothèque 🤗 Tokenizer
IntroductionEntraîner un nouveau tokenizer à partir d'un ancienLes pouvoirs spéciaux des tokenizers rapidesLes tokenizers rapides dans le pipeline de QANormalisation et prétokénisationLe tokenizer Byte-Pair EncodingLe tokenizer WordPieceLe tokenizer UnigramConstruction d'un tokenizer bloc par bloc🤗 Tokenizers, coché !Quiz de fin de chapitre
7. Les principales tâches en NLP
8. Comment demander de l'aide
9. Construire et partager des démos
Evènements liés au cours
Glossaire
<i> Tokenizer </i> , coché !
Bon travail pour finir ce chapitre !
Après cette plongée en profondeur dans les tokenizers, vous devriez :
- être capable d’entraîner un nouveau tokenizer en utilisant un ancien tokenizer comme modèle,
- comprendre comment utiliser les offsets pour faire correspondre la position des tokens à l’étendue de texte d’origine,
- connaître les différences entre BPE, WordPiece et Unigram,
- être capable de combiner les blocs fournis par la bibliothèque 🤗 Tokenizers pour construire votre propre tokenizer,
- être capable d’utiliser ce tokenizer dans la bibliothèque 🤗 Transformers.