NLLB-Renpy-Rory

Modèle NLLB-200 fine-tuné pour la traduction de dialogues de jeux Ren’Py (anglais → français), optimisé pour la préservation des balises et la fluidité du texte. 🚀 Utilisation rapide

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

📂 ID ou chemin local du modèle

MODEL_ID = "./nllb-renpy-rory" # ou "virusf/nllb-renpy-rory" sur Hugging Face

🔹 Charger modèle et tokenizer

tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, use_fast=False)

model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_ID)

🔹 Définir langue source (anglais)

tokenizer.src_lang = "eng_Latn"

🔹 Texte à traduire

text = "So nice seeing the house full like this."

🔹 Encodage

inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=512)

🔹 Génération

outputs = model.generate( **inputs, max_new_tokens=200, # augmenter à 220-320 pour longues phrases num_beams=3 # mettre 1 pour plus de vitesse )

🔹 Affichage

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

💡 Conseils pratiques

Préserver les tags : passe la ligne telle quelle (ex:
"Oh my....(06)...You really sure about that...?")

Textes longs (intro/EULA) → augmenter max_new_tokens (220–320)

Vitesse max → num_beams=1 (greedy), use_fast=True et
pip install protobuf

📊 Données & Prétraitement

Données extraites depuis scripts .rpy de jeux Ren’Py

Nettoyage et normalisation des balises

Division train/val

Tokenisation NLLB officielle

⚙️ Entraînement

Base : facebook/nllb-200-distilled-600M

Fine-tuning : RTX 4070, batch dynamique

3 epochs, beam search par défaut (num_beams=3)

📜 Licence

CC BY-NC 4.0

virusf
/

nllb-renpy-rory