GPT-OSS-20B GGUF

Versioni quantizzate del modello GPT-OSS-20B di OpenAI in formato GGUF per llama.cpp.

📊 Versioni disponibili

Formato Dimensione Qualità VRAM Utilizzo
f16 ~39GB Massima 40GB+ Server/A100
q2_k ~11GB Ultra-compatta 12GB CPU/RTX 4060

Altre quantizzazioni (q8_0, q4_k_m, q4_k_s) saranno aggiunte successivamente.

🚀 Come usare

# Download repository completo
git clone https://huggingface.co/Lutifya/gpt-oss-20b-gguf

# Download file singolo
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-f16.gguf
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-q2_k.gguf

⚡ llama.cpp

# Massima qualità (f16)
./llama-cli -m gpt-oss-20b-f16.gguf -p "Your prompt here"

# Ultra-compatto (q2_k)
./llama-cli -m gpt-oss-20b-q2_k.gguf -p "Your prompt here"

# Server
./llama-server -m gpt-oss-20b-f16.gguf --host 0.0.0.0 --port 8080

📝 Note

  • Modello base: openai/gpt-oss-20b
  • Fine-tuning: LoRA applicato e merged
  • Conversione: llama.cpp 2025-08-21
  • Hardware consigliato: GPU NVIDIA con CUDA

🏷️ License

Stesso del modello originale OpenAI GPT-OSS-20B.

Downloads last month
62
GGUF
Model size
20.9B params
Architecture
gpt-oss
Hardware compatibility
Log In to view the estimation

2-bit

16-bit

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Lutifya/gpt-oss-20b-gguf

Base model

openai/gpt-oss-20b
Quantized
(79)
this model