MPropositioneur-V2-large

MPropositioneur-V2-large est un modèle de langage (basé sur Qwen3-4B) spécialisé dans l'extraction de propositions atomiques. Il a été entraîné par distillation pour décomposer des phrases ou des passages complexes en une liste de déclarations simples, atomiques et indépendantes.

Comparé à la version standard (0.6B), ce modèle "large" offre une meilleure fidélité sémantique et une meilleure capacité de raisonnement pour les structures de phrases complexes.

Développé par Luc Pommeret au LISN (CNRS).

Intention d'usage

Ce modèle vise à améliorer la qualité et la granularité des informations dans les tâches de :

RAG (Retrieval-Augmented Generation) : En indexant des propositions atomiques au lieu de gros paragraphes.
Extraction d'Information Ouverte (OpenIE).
Simplification de texte et analyse du discours.

Exemple d'utilisation (Python)

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
import json

model_id = "Zual/MPropositioneur-V2-large"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id, torch_dtype=torch.float16, device_map="auto")

texte = "Le chat et le chien sont dans la cuisine."

prompt = f"<|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n"
inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=8192).to(model.device)

with torch.no_grad():
    outputs = model.generate(**inputs, max_new_tokens=2048, do_sample=False)

generated_ids = outputs[0][inputs.input_ids.shape[1]:]
result = tokenizer.decode(generated_ids, skip_special_tokens=True).strip()

# La sortie est une liste JSON : ["p1", "p2", ...]
propositions = json.loads(result)
for p in propositions:
    print(f"• {p}")

Sortie attendue :

• Le chat est dans la cuisine.
• Le chien est dans la cuisine.

Détails techniques

Architecture de base : Qwen3-4B
Format de prompt : <|im_start|>user\nAtomize: {texte}<|im_end|>\n<|im_start|>assistant\n
Format de sortie : liste JSON de chaînes ["p1", "p2", ...]
Objectif : Générer une liste d'assertions atomiques décontextualisées mais fidèles sémantiquement à la phrase d'origine.
Multilingue : Entraîné pour supporter plusieurs langues, notamment le français et l'anglais.

Auteur

Développé par Luc Pommeret au LISN (Laboratoire Interdisciplinaire des Sciences du Numérique), CNRS.

Downloads last month: 71

Safetensors

Model size

4B params

Tensor type

BF16

Model tree for Zual/MPropositioneur-V2-large

Base model

Qwen/Qwen3-4B-Base

Finetuned

Qwen/Qwen3-4B

Finetuned

(546)

this model

Quantizations

1 model