Lutifya
/

gpt-oss-20b-q5_0

+---
+language: [it]
+library_name: llama.cpp
+tags: [gguf, q5_0, legal, rag, italian]
+license: apache-2.0
+pipeline_tag: text-generation
+---
+# gpt-oss-20b-q5_0
+**Base:** `gpt-oss-20b-base`
+**Adapter (fuso):** `my-legal-adapter-v1`
+Questo repository pubblica un file **GGUF** generato a partire dal modello fuso:
+- gpt-oss_20b_finetuned_q5_0.gguf — **Q5_0** (qualità più alta rispetto a Q4, con un costo RAM/latency maggiore)
+## Uso rapido
+### llama.cpp
+```bash
+./llama.cpp/main -m gpt-oss_20b_finetuned_q5_0.gguf -p "Ciao"   # Q5_0
+```
+### LM Studio
+Importa il `.gguf` nella sezione **Local models** e avvia una chat.
+## RAG legale – esempio (sub-sample JSON)
+```json
+{
+  "messages": [
+    {
+      "role": "user",
+      "content": "Quali pratiche ha ClienteInesistente?"
+    },
+    {
+      "role": "assistant",
+      "content": "Mi dispiace, ma non ho trovato informazioni per la pratica richiesta. Verifica che l'ID o il nome siano corretti e che la pratica sia presente nel sistema."
+    }
+  ]
+}
+```
+## Note tecniche
+- Conversione Hugging Face → **GGUF** con `convert_hf_to_gguf.py` (llama.cpp).
+- Quantizzazione a **Q5_0** con l'eseguibile `quantize` di llama.cpp.
+- La serializzazione in **MXFP4** dopo il merge non è supportata; tipicamente si passa da **F16** a **Q5_0**.
+_Aggiornato: 2025-08-23_