v0.32.0

See https://github.com/quic/ai-hub-models/releases/v0.32.0 for changelog.

Files changed (2) hide show

LICENSE ADDED Viewed


1	+ The license of the original trained model can be found at https://github.com/facebookresearch/llama/blob/main/LICENSE.
2	+ The license for the deployable model files (.tflite, .onnx, .dlc, .bin, etc.) can be found at https://github.com/facebookresearch/llama/blob/main/LICENSE.

README.md CHANGED Viewed

@@ -28,14 +28,11 @@ This model is an implementation of Llama-v2-7B-Chat found [here](https://hugging
 - **Model Stats:**
   - Input sequence length for Prompt Processor: 1024
   - Context length: 1024
-  - Number of parameters: 7B
   - Precision: w4a16 + w8a16 (few layers)
   - Model-1 (Prompt Processor): Llama-PromptProcessor-Quantized
-  - Prompt processor model size: 3.6 GB
   - Prompt processor input: 1024 tokens
   - Prompt processor output: 1024 output tokens + KVCache for token generator
   - Model-2 (Token Generator): Llama-TokenGenerator-KVCache-Quantized
-  - Token generator model size: 3.6 GB
   - Token generator input: 1 input token + past KVCache
   - Token generator output: 1 output token + KVCache for next iteration
   - Use: Initiate conversation with prompt-processor and then token generator for subsequent iterations.

 - **Model Stats:**
   - Input sequence length for Prompt Processor: 1024
   - Context length: 1024
   - Precision: w4a16 + w8a16 (few layers)
   - Model-1 (Prompt Processor): Llama-PromptProcessor-Quantized
   - Prompt processor input: 1024 tokens
   - Prompt processor output: 1024 output tokens + KVCache for token generator
   - Model-2 (Token Generator): Llama-TokenGenerator-KVCache-Quantized
   - Token generator input: 1 input token + past KVCache
   - Token generator output: 1 output token + KVCache for next iteration
   - Use: Initiate conversation with prompt-processor and then token generator for subsequent iterations.