RedHatAI
/

Llama-3.1-8B-tldr-FP8-dynamic

Text Generation

text-generation-inference

compressed-tensors

Model card Files Files and versions

alexmarques commited on Jun 6

Commit

76a0a25

·

verified ·

1 Parent(s): bc4997d

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -88,16 +88,16 @@ model = AutoModelForCausalLM.from_pretrained(
     model_stub, torch_dtype="auto", device_map="auto"
 )
 output_dir = f"./{model_name}-FP8-dynamic"
 oneshot(
     model=model,
     recipe=recipe,
-    output_dir=output_dir,
-    tokenizer=AutoTokenizer.from_pretrained(model_stub),
 )
-model.save_pretrained(output_dir, save_compressed=True, skip_sparsity_compression_stats=False)
 tokenizer.save_pretrained(output_dir)
 ```
 </details>

     model_stub, torch_dtype="auto", device_map="auto"
 )
+tokenizer = AutoTokenizer.from_pretrained(model_stub)
 output_dir = f"./{model_name}-FP8-dynamic"
 oneshot(
     model=model,
     recipe=recipe,
 )
+model.save_pretrained(output_dir, save_compressed=True)
 tokenizer.save_pretrained(output_dir)
 ```
 </details>