gpt-oss-20b-q5_0
Base: gpt-oss-20b-base
Adapter (fuso): my-legal-adapter-v1
Questo repository pubblica un file GGUF generato a partire dal modello fuso:
- gpt-oss_20b_finetuned_q5_0.gguf — Q5_0 (qualità più alta rispetto a Q4, con un costo RAM/latency maggiore)
Uso rapido
llama.cpp
./llama.cpp/main -m gpt-oss_20b_finetuned_q5_0.gguf -p "Ciao" # Q5_0
LM Studio
Importa il .gguf
nella sezione Local models e avvia una chat.
RAG legale – esempio (sub-sample JSON)
{
"messages": [
{
"role": "user",
"content": "Quali pratiche ha ClienteInesistente?"
},
{
"role": "assistant",
"content": "Mi dispiace, ma non ho trovato informazioni per la pratica richiesta. Verifica che l'ID o il nome siano corretti e che la pratica sia presente nel sistema."
}
]
}
Note tecniche
- Conversione Hugging Face → GGUF con
convert_hf_to_gguf.py
(llama.cpp). - Quantizzazione a Q5_0 con l'eseguibile
quantize
di llama.cpp. - La serializzazione in MXFP4 dopo il merge non è supportata; tipicamente si passa da F16 a Q5_0.
Aggiornato: 2025-08-23
- Downloads last month
- 7
Hardware compatibility
Log In
to view the estimation
5-bit
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support