ibm-ai-platform
/

codellama-13b-accelerator

Model card Files Files and versions

JRosenkranz commited on Apr 23, 2024

Commit

e1d9017

·

verified ·

1 Parent(s): 3fba51d

Update README.md

Files changed (1) hide show

README.md +9 -6

README.md CHANGED Viewed

@@ -87,11 +87,12 @@ pip install transformers==4.35.0 sentencepiece numpy
 ##### batch_size=1 (compile + cudagraphs)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
-    --model_path=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --model_source=hf \
-    --tokenizer=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --top_k_tokens_per_head=4,3,2,2,2,2,2 \
@@ -103,11 +104,12 @@ python fms-extras/scripts/paged_speculative_inference.py \
 ##### batch_size=1 (compile)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
-    --model_path=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --model_source=hf \
-    --tokenizer=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --top_k_tokens_per_head=4,3,2,2,2,2,2 \
@@ -118,11 +120,12 @@ python fms-extras/scripts/paged_speculative_inference.py \
 ##### batch_size=4 (compile)
 ```bash
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
-    --model_path=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --model_source=hf \
-    --tokenizer=/path/to/llama/CodeLlama-13b-Instruct-hf \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --batch_input \

 ##### batch_size=1 (compile + cudagraphs)
 ```bash
+MODEL_PATH=/path/to/llama/hf/CodeLlama-13b-Instruct-hf
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --top_k_tokens_per_head=4,3,2,2,2,2,2 \
 ##### batch_size=1 (compile)
 ```bash
+MODEL_PATH=/path/to/llama/hf/CodeLlama-13b-Instruct-hf
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --top_k_tokens_per_head=4,3,2,2,2,2,2 \
 ##### batch_size=4 (compile)
 ```bash
+MODEL_PATH=/path/to/llama/hf/CodeLlama-13b-Instruct-hf
 python fms-extras/scripts/paged_speculative_inference.py \
     --variant=13b_code \
+    --model_path=$MODEL_PATH \
     --model_source=hf \
+    --tokenizer=$MODEL_PATH \
     --speculator_path=ibm-fms/codellama-13b-accelerator \
     --speculator_source=hf \
     --batch_input \