ibm-ai-platform
/

llama-13b-accelerator

Model card Files Files and versions

JRosenkranz commited on Apr 26, 2024

Commit

e605551

·

verified ·

1 Parent(s): b7ceb19

Update README.md

Files changed (1) hide show

README.md +3 -0

README.md CHANGED Viewed

@@ -126,6 +126,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
     --compile_mode=reduce-overhead
 ```
@@ -141,6 +142,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --compile \
 ```
@@ -155,6 +157,7 @@ python fms-extras/scripts/paged_speculative_inference.py \
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
     --batch_input \
     --compile \
 ```

     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
+    --speculator_variant=840m \
     --compile \
     --compile_mode=reduce-overhead
 ```
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
+    --speculator_variant=840m \
     --compile \
 ```
     --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/llama-13b-accelerator \
     --speculator_source=hf \
+    --speculator_variant=840m \
     --batch_input \
     --compile \
 ```