Commit
4dd42d8
·
verified ·
1 Parent(s): 16c9646

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +53 -15
README.md CHANGED
@@ -7,13 +7,13 @@ tags:
7
  - sentence-similarity
8
  - feature-extraction
9
  - generated_from_trainer
10
- - dataset_size:2280319
11
  - loss:MatryoshkaLoss
12
  - loss:MultipleNegativesRankingLoss
13
  base_model: Qwen/Qwen3-Embedding-0.6B
14
  widget:
15
  - source_sentence: >-
16
- أقترح أن تجد بنكًا في بلدك المحلي، وأن تفكر في فتح حساب مصرفي مقوم باليورو لديهم.
 
17
  sentences:
18
  - يمكنك مزج هذه الأمور، ولكن من تجربتي، سيكون الأمر صعبًا جدًا في البداية.
19
  - المرأة تضع ظلال العيون بقلم.
@@ -24,8 +24,8 @@ widget:
24
  - امرأة تركب فيلًا.
25
  - طائر أصفر وبرتقالي متمسك بجانب قفص.
26
  - source_sentence: >-
27
- إذا تمكنت من تجاوز "عامل الاشمئزاز"، فسيكون لديك مصدر سهل الاستخدام من السماد
28
- العضوي النيتروجيني.
29
  sentences:
30
  - أرقام NPK على السماد تمثل النسبة المئوية، بالوزن، للنيتروجين وP2O5 وK2O.
31
  - تجميع ويكيبيديا لقواعد السفر عبر الزمن هو مصدر جيد لفهم هذا الموضوع.
@@ -34,11 +34,15 @@ widget:
34
  sentences:
35
  - رجل يرقص.
36
  - أسد الجبل يطارد دبًا.
37
- - لأغراض الشمول، يحتوي برنامج Pages من Apple على العديد من قوالب الملصقات الجيدة.
 
 
38
  - source_sentence: الجانب الأيسر من محرك قطار فضي.
39
  sentences:
40
  - قرد يركب حافلة.
41
- - إحدى الأفكار التي كانت تُطرح منذ الثمانينات هي أنه يمكنك التمييز بين "الحركات" و"الثبات".
 
 
42
  pipeline_tag: sentence-similarity
43
  library_name: sentence-transformers
44
  license: apache-2.0
@@ -58,7 +62,26 @@ It maps sentences & paragraphs to a 1024-dimensional dense vector space and can
58
  - **Output Dimensionality:** 1024 dimensions
59
  - **Similarity Function:** Cosine Similarity
60
  - **Language:** ar
61
- <!-- - **License:** Unknown -->
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
62
 
63
  ### Full Model Architecture
64
 
@@ -83,22 +106,37 @@ Then you can load this model and run inference.
83
  ```python
84
  from sentence_transformers import SentenceTransformer
85
 
86
- # Download from the 🤗 Hub
87
  model = SentenceTransformer("Omartificial-Intelligence-Space/Semantic-Ar-Qwen-Embed-V0.1")
88
- # Run inference
 
89
  sentences = [
90
  'Left side of a silver train engine.',
91
  'A close-up of a black train engine.',
92
  "One idea that's been going around at least since the 80s is that you can distinguish between Holds and Moves.",
 
 
 
 
93
  ]
 
 
94
  embeddings = model.encode(sentences)
95
- print(embeddings.shape)
96
- # [3, 1024]
97
 
98
- # Get the similarity scores for the embeddings
99
  similarities = model.similarity(embeddings, embeddings)
100
- print(similarities.shape)
101
- # [3, 3]
 
 
 
 
 
 
 
 
102
  ```
103
 
104
  ## Citation
@@ -140,4 +178,4 @@ print(similarities.shape)
140
  archivePrefix={arXiv},
141
  primaryClass={cs.CL}
142
  }
143
- ```
 
7
  - sentence-similarity
8
  - feature-extraction
9
  - generated_from_trainer
 
10
  - loss:MatryoshkaLoss
11
  - loss:MultipleNegativesRankingLoss
12
  base_model: Qwen/Qwen3-Embedding-0.6B
13
  widget:
14
  - source_sentence: >-
15
+ أقترح أن تجد بنكًا في بلدك المحلي، وأن تفكر في فتح حساب مصرفي مقوم باليورو
16
+ لديهم.
17
  sentences:
18
  - يمكنك مزج هذه الأمور، ولكن من تجربتي، سيكون الأمر صعبًا جدًا في البداية.
19
  - المرأة تضع ظلال العيون بقلم.
 
24
  - امرأة تركب فيلًا.
25
  - طائر أصفر وبرتقالي متمسك بجانب قفص.
26
  - source_sentence: >-
27
+ إذا تمكنت من تجاوز "عامل الاشمئزاز"، فسيكون لديك مصدر سهل الاستخدام من
28
+ السماد العضوي النيتروجيني.
29
  sentences:
30
  - أرقام NPK على السماد تمثل النسبة المئوية، بالوزن، للنيتروجين وP2O5 وK2O.
31
  - تجميع ويكيبيديا لقواعد السفر عبر الزمن هو مصدر جيد لفهم هذا الموضوع.
 
34
  sentences:
35
  - رجل يرقص.
36
  - أسد الجبل يطارد دبًا.
37
+ - >-
38
+ لأغراض الشمول، يحتوي برنامج Pages من Apple على العديد من قوالب الملصقات
39
+ الجيدة.
40
  - source_sentence: الجانب الأيسر من محرك قطار فضي.
41
  sentences:
42
  - قرد يركب حافلة.
43
+ - >-
44
+ إحدى الأفكار التي كانت تُطرح منذ الثمانينات هي أنه يمكنك التمييز بين
45
+ "الحركات" و"الثبات".
46
  pipeline_tag: sentence-similarity
47
  library_name: sentence-transformers
48
  license: apache-2.0
 
62
  - **Output Dimensionality:** 1024 dimensions
63
  - **Similarity Function:** Cosine Similarity
64
  - **Language:** ar
65
+
66
+ ### 📊 Performance Evaluation
67
+
68
+
69
+ This model has been evaluated on Arabic semantic similarity benchmarks using the [MTEB](https://github.com/embeddings-benchmark/mteb) framework. The results below reflect **Spearman correlation scores** on two key tasks: **STS17** and **STS22.v2**.
70
+
71
+ | **Model** | **STS17 (Spearman)** | **STS22.v2 (Spearman)** |
72
+ |----------------------------------|----------------------|--------------------------|
73
+ | Qwen3 Embeddings 0.6B | 0.7505 | 0.6520 |
74
+ | Qwen3 Embeddings 4B | 0.7912 | **0.6669** |
75
+ | Semantic-Ar-Qwen-Embed-V0.1 🏆 | **0.8300** | 0.6130 |
76
+
77
+ > ✅ **STS17**: Classic sentence similarity
78
+ > 🧪 **STS22.v2**: Diverse and challenging sentence pairs
79
+
80
+ ### 📌 Highlights
81
+ - **Semantic-Ar-Qwen-Embed-V0.1** achieves the **highest score on STS17**, indicating deep understanding of sentence semantics in Arabic.
82
+ - **Qwen3 4B** performs best on **STS22.v2**, showing strength on broader generalization.
83
+ - The **0.6B model** remains competitive despite its smaller size.
84
+
85
 
86
  ### Full Model Architecture
87
 
 
106
  ```python
107
  from sentence_transformers import SentenceTransformer
108
 
109
+ # Load model from Hugging Face Hub
110
  model = SentenceTransformer("Omartificial-Intelligence-Space/Semantic-Ar-Qwen-Embed-V0.1")
111
+
112
+ # Sentences for embedding (English + Arabic)
113
  sentences = [
114
  'Left side of a silver train engine.',
115
  'A close-up of a black train engine.',
116
  "One idea that's been going around at least since the 80s is that you can distinguish between Holds and Moves.",
117
+
118
+ "الجانب الأيسر من محرك قطار فضي.",
119
+ "صورة مقربة لمحرك قطار أسود.",
120
+ "إحدى الأفكار المتداولة منذ الثمانينات هي إمكانية التمييز بين الثبات والحركة.",
121
  ]
122
+
123
+ # Generate embeddings
124
  embeddings = model.encode(sentences)
125
+ print("Embedding shape:", embeddings.shape)
126
+ # Output: (6, 1024)
127
 
128
+ # Compute similarity matrix
129
  similarities = model.similarity(embeddings, embeddings)
130
+ print("Similarity shape:", similarities.shape)
131
+ # Output: (6, 6)
132
+
133
+ # Optionally print similarity scores
134
+ import numpy as np
135
+ import pandas as pd
136
+
137
+ df = pd.DataFrame(np.round(similarities, 3), index=sentences, columns=sentences)
138
+ print("\nSimilarity matrix:\n")
139
+ print(df)
140
  ```
141
 
142
  ## Citation
 
178
  archivePrefix={arXiv},
179
  primaryClass={cs.CL}
180
  }
181
+ ```