Alibaba-NLP
/

gte-Qwen2-1.5B-instruct

Sentence Similarity

sentence-transformers

text-generation

text-generation-inference

text-embeddings-inference

Model card Files Files and versions

michaelfeil commited on Nov 12, 2024

Commit

ec7d9de

·

verified ·

1 Parent(s): c6c1b92

Readme, add infinity deployment documentation (#21)

- Update README.md (31e97fe8a364fd9c580cbe8e5432c263213afc60)
- Update README.md (13661f9e67466c5451f26990e0df3efa9090ae3e)

Co-authored-by: Michael <[email protected]>

Files changed (1) hide show

README.md +10 -0

README.md CHANGED Viewed

@@ -5620,6 +5620,16 @@ scores = (embeddings[:2] @ embeddings[2:].T) * 100
 print(scores.tolist())
 ```
 ## Evaluation
 ### MTEB & C-MTEB

 print(scores.tolist())
 ```
+### infinity_emb
+Usage via [infinity, MIT Licensed](https://github.com/michaelfeil/infinity).
+```bash
+docker run \
+--gpus "0" -p "7997":"7997" \
+michaelf34/infinity:0.0.68-trt-onnx \
+v2 --model-id Alibaba-NLP/gte-Qwen2-1.5B-instruct --revision "refs/pr/20" --dtype bfloat16 --batch-size 16 --device cuda --engine torch --port 7997 --no-bettertransformer
+```
 ## Evaluation
 ### MTEB & C-MTEB