MPropositioneur-V2-large

MPropositioneur-V2-large est un modèle de langage (basé sur Qwen3-4B) spécialisé dans l'extraction de propositions atomiques. Il a été entraîné par distillation pour décomposer des phrases ou des passages complexes en une liste de déclarations simples, atomiques et indépendantes.

Comparé à la version standard (0.6B), ce modèle "large" offre une meilleure fidélité sémantique et une meilleure capacité de raisonnement pour les structures de phrases complexes.

Développé par Luc Pommeret au LISN (CNRS).

Intention d'usage

Ce modèle vise à améliorer la qualité et la granularité des informations dans les tâches de :

  • RAG (Retrieval-Augmented Generation) : En indexant des propositions atomiques au lieu de gros paragraphes.
  • Extraction d'Information Ouverte (OpenIE).
  • Simplification de texte et analyse du discours.

Exemple d'utilisation (Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import json

model_id = "Zual/MPropositioneur-V2-large"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

texte = "Le chat et le chien sont dans la cuisine."

prompt = f"<|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n"
inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=8192).to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=2048, do_sample=False)

generated_ids = outputs[0][inputs.input_ids.shape[1]:]
result = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()

# La sortie est une liste JSON : ["p1", "p2", ...]
propositions = json.loads(result)
for p in propositions:
    print(f"• {p}")

Sortie attendue :

• Le chat est dans la cuisine.
• Le chien est dans la cuisine.

Détails techniques

  • Architecture de base : Qwen3-4B
  • Format de prompt : <|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n
  • Format de sortie : liste JSON de chaînes ["p1", "p2", ...]
  • Objectif : Générer une liste d'assertions atomiques décontextualisées mais fidèles sémantiquement à la phrase d'origine.
  • Multilingue : Entraîné pour supporter plusieurs langues, notamment le français et l'anglais.

Auteur

Développé par Luc Pommeret au LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), CNRS.

Downloads last month
71
Safetensors
Model size
4B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Zual/MPropositioneur-V2-large

Finetuned
Qwen/Qwen3-4B
Finetuned
(546)
this model
Quantizations
1 model
Free AI Image Generator No sign-up. Instant results. Open Now