NLLB-Renpy-Rory
Modèle NLLB-200 fine-tuné pour la traduction de dialogues de jeux Ren’Py (anglais → français), optimisé pour la préservation des balises et la fluidité du texte. 🚀 Utilisation rapide
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
📂 ID ou chemin local du modèle
MODEL_ID = "./nllb-renpy-rory" # ou "virusf/nllb-renpy-rory" sur Hugging Face
🔹 Charger modèle et tokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, use_fast=False)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_ID)
🔹 Définir langue source (anglais)
tokenizer.src_lang = "eng_Latn"
🔹 Texte à traduire
text = "So nice seeing the house full like this."
🔹 Encodage
inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)
🔹 Génération
outputs = model.generate( **inputs, max_new_tokens=200, # augmenter à 220-320 pour longues phrases num_beams=3 # mettre 1 pour plus de vitesse )
🔹 Affichage
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
💡 Conseils pratiques
Préserver les tags : passe la ligne telle quelle (ex:
"Oh my....(06)...You really sure about that...?")
Textes longs (intro/EULA) → augmenter max_new_tokens (220–320)
Vitesse max → num_beams=1 (greedy), use_fast=True et
pip install protobuf
📊 Données & Prétraitement
Données extraites depuis scripts .rpy de jeux Ren’Py
Nettoyage et normalisation des balises
Division train/val
Tokenisation NLLB officielle
⚙️ Entraînement
Base : facebook/nllb-200-distilled-600M
Fine-tuning : RTX 4070, batch dynamique
3 epochs, beam search par défaut (num_beams=3)
📜 Licence
CC BY-NC 4.0
- Downloads last month
- 5
Model tree for virusf/nllb-renpy-rory
Base model
facebook/nllb-200-distilled-600M