LLM Course

0. Configuration

1. Les transformers

2. Utilisation de 🤗 Transformers

3. Finetuner un modèle pré-entraîné

4. Partager des modèles et des tokenizers

5. La bibliothèque 🤗 Datasets

6. La bibliothèque 🤗 Tokenizer

7. Les principales tâches en NLP

8. Comment demander de l'aide

9. Construire et partager des démos

Evènements liés au cours

Glossaire

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

<i> Tokenizer </i> , coché !

Bon travail pour finir ce chapitre !

Après cette plongée en profondeur dans les tokenizers, vous devriez :

être capable d’entraîner un nouveau tokenizer en utilisant un ancien tokenizer comme modèle,
comprendre comment utiliser les offsets pour faire correspondre la position des tokens à l’étendue de texte d’origine,
connaître les différences entre BPE, WordPiece et Unigram,
être capable de combiner les blocs fournis par la bibliothèque 🤗 Tokenizers pour construire votre propre tokenizer,
être capable d’utiliser ce tokenizer dans la bibliothèque 🤗 Transformers.