GPT-OSS-20B GGUF
Versioni quantizzate del modello GPT-OSS-20B di OpenAI in formato GGUF per llama.cpp.
📊 Versioni disponibili
Formato | Dimensione | Qualità | VRAM | Utilizzo |
---|---|---|---|---|
f16 | ~39GB | Massima | 40GB+ | Server/A100 |
q2_k | ~11GB | Ultra-compatta | 12GB | CPU/RTX 4060 |
Altre quantizzazioni (q8_0, q4_k_m, q4_k_s) saranno aggiunte successivamente.
🚀 Come usare
# Download repository completo
git clone https://huggingface.co/Lutifya/gpt-oss-20b-gguf
# Download file singolo
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-f16.gguf
wget https://huggingface.co/Lutifya/gpt-oss-20b-gguf/resolve/main/gpt-oss-20b-q2_k.gguf
⚡ llama.cpp
# Massima qualità (f16)
./llama-cli -m gpt-oss-20b-f16.gguf -p "Your prompt here"
# Ultra-compatto (q2_k)
./llama-cli -m gpt-oss-20b-q2_k.gguf -p "Your prompt here"
# Server
./llama-server -m gpt-oss-20b-f16.gguf --host 0.0.0.0 --port 8080
📝 Note
- Modello base: openai/gpt-oss-20b
- Fine-tuning: LoRA applicato e merged
- Conversione: llama.cpp 2025-08-21
- Hardware consigliato: GPU NVIDIA con CUDA
🏷️ License
Stesso del modello originale OpenAI GPT-OSS-20B.
- Downloads last month
- 62
Hardware compatibility
Log In
to view the estimation
2-bit
16-bit
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for Lutifya/gpt-oss-20b-gguf
Base model
openai/gpt-oss-20b