HIT-TMG
/

KaLM-embedding-multilingual-mini-instruct-v1

Sentence Similarity

sentence-transformers

feature-extraction

text-embeddings-inference

Model card Files Files and versions

YanshekWoo commited on Jan 3

Commit

edf9656

·

verified ·

1 Parent(s): 91f38cf

1022

Files changed (1) hide show

README.md +4 -2

README.md CHANGED Viewed

@@ -20127,9 +20127,10 @@ KaLM-embedding-multilingual-mini is trained from [Qwen/Qwen2-0.5B](https://huggi
 - [x] Model Checkpoint
     - [x] [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1)
     - [x] [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1)
     - [ ] KaLM-embedding-multilingual-max-v1
 - [x] Training and Evaluation Code: [HITsz-TMG/KaLM-Embedding](https://github.com/HITsz-TMG/KaLM-Embedding)
-- [ ] Technical Report (in 2024)
 - [ ] Training Data
@@ -20141,7 +20142,8 @@ KaLM-embedding-multilingual-mini is trained from [Qwen/Qwen2-0.5B](https://huggi
 | [bge-m3 (dense)](https://huggingface.co/BAAI/bge-m3) | 560M | 60.80 | 59.84 | 60.32
 | [gte-multilingual-base (dense)](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) | **305M** | 62.72 | 61.40 | 62.06
 | [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1) | 494M | 62.31 | 61.87 | 62.09
-| [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1) | 494M | **63.57** | **64.74** | **64.16**

 - [x] Model Checkpoint
     - [x] [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1)
     - [x] [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1)
+    - [x] [KaLM-embedding-multilingual-mini-instruct-v1.5](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1.5)
     - [ ] KaLM-embedding-multilingual-max-v1
 - [x] Training and Evaluation Code: [HITsz-TMG/KaLM-Embedding](https://github.com/HITsz-TMG/KaLM-Embedding)
+- [x] Technical Report: [KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model](https://arxiv.org/abs/2501.01028)
 - [ ] Training Data
 | [bge-m3 (dense)](https://huggingface.co/BAAI/bge-m3) | 560M | 60.80 | 59.84 | 60.32
 | [gte-multilingual-base (dense)](https://huggingface.co/Alibaba-NLP/gte-multilingual-base) | **305M** | 62.72 | 61.40 | 62.06
 | [KaLM-embedding-multilingual-mini-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-v1) | 494M | 62.31 | 61.87 | 62.09
+| [KaLM-embedding-multilingual-mini-instruct-v1](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1) | 494M | 63.57 | 64.74 | 64.16
+| [KaLM-embedding-multilingual-mini-instruct-v1.5](https://huggingface.co/HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1.5) | 494M | **64.13** | **64.94** | **64.53**