GPT-OSS-20B GGUF

Versioni quantizzate del modello GPT-OSS-20B di OpenAI in formato GGUF per llama.cpp.

📊 Versioni disponibili

Formato	Dimensione	Qualità	VRAM	Utilizzo
f16	~39GB	Massima	40GB+	Server/A100
q2_k	~11GB	Ultra-compatta	12GB	CPU/RTX 4060

Altre quantizzazioni (q8_0, q4_k_m, q4_k_s) saranno aggiunte successivamente.

🚀 Come usare

# Download repository completo
git clone https://huggingface.co/Lutifya/gpt-oss-20b-gguf

# Download file singolo
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-f16.gguf
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-q2_k.gguf

⚡ llama.cpp

# Massima qualità (f16)
./llama-cli -m gpt-oss-20b-f16.gguf -p "Your prompt here"

# Ultra-compatto (q2_k)
./llama-cli -m gpt-oss-20b-q2_k.gguf -p "Your prompt here"

# Server
./llama-server -m gpt-oss-20b-f16.gguf --host 0.0.0.0 --port 8080

📝 Note

Modello base: openai/gpt-oss-20b
Fine-tuning: LoRA applicato e merged
Conversione: llama.cpp 2025-08-21
Hardware consigliato: GPU NVIDIA con CUDA

🏷️ License

Stesso del modello originale OpenAI GPT-OSS-20B.