gpt-oss-20b-q5_0

Base: gpt-oss-20b-base Adapter (fuso): my-legal-adapter-v1

Questo repository pubblica un file GGUF generato a partire dal modello fuso:

  • gpt-oss_20b_finetuned_q5_0.gguf — Q5_0 (qualità più alta rispetto a Q4, con un costo RAM/latency maggiore)

Uso rapido

llama.cpp

./llama.cpp/main -m gpt-oss_20b_finetuned_q5_0.gguf -p "Ciao"   # Q5_0

LM Studio

Importa il .gguf nella sezione Local models e avvia una chat.

RAG legale – esempio (sub-sample JSON)

{
  "messages": [
    {
      "role": "user",
      "content": "Quali pratiche ha ClienteInesistente?"
    },
    {
      "role": "assistant",
      "content": "Mi dispiace, ma non ho trovato informazioni per la pratica richiesta. Verifica che l'ID o il nome siano corretti e che la pratica sia presente nel sistema."
    }
  ]
}

Note tecniche

  • Conversione Hugging Face → GGUF con convert_hf_to_gguf.py (llama.cpp).
  • Quantizzazione a Q5_0 con l'eseguibile quantize di llama.cpp.
  • La serializzazione in MXFP4 dopo il merge non è supportata; tipicamente si passa da F16 a Q5_0.

Aggiornato: 2025-08-23

Downloads last month
7
GGUF
Model size
20.9B params
Architecture
gpt-oss
Hardware compatibility
Log In to view the estimation

5-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support