Update README.md
Browse files
README.md
CHANGED
|
@@ -146,19 +146,19 @@ print(make_table(results))
|
|
| 146 |
| mmlu | 66.73 | 63.11 |
|
| 147 |
| mmlu_pro | 44.71 | 35.31 |
|
| 148 |
| **Reasoning** | | |
|
| 149 |
-
| arc_challenge | TODO |
|
| 150 |
| gpqa | TODO | TODO |
|
| 151 |
-
| hellaswag | 54.57 |
|
| 152 |
-
| openbookqa | TODO |
|
| 153 |
-
| piqa | TODO |
|
| 154 |
-
| siqa | TODO |
|
| 155 |
-
| truthfulqa | TODO |
|
| 156 |
-
| winogrande | TODO |
|
| 157 |
| **Multilingual** | | |
|
| 158 |
| Mgsm | TODO | TODO |
|
| 159 |
| mgsm_cot_native | TODO | TODO |
|
| 160 |
| **Math** | | |
|
| 161 |
-
| gsm8k | TODO |
|
| 162 |
| Mathqa | TODO | TODO |
|
| 163 |
| **Overall** | **TODO** | **TODO** |
|
| 164 |
|
|
|
|
| 146 |
| mmlu | 66.73 | 63.11 |
|
| 147 |
| mmlu_pro | 44.71 | 35.31 |
|
| 148 |
| **Reasoning** | | |
|
| 149 |
+
| arc_challenge | TODO | 0.5512 |
|
| 150 |
| gpqa | TODO | TODO |
|
| 151 |
+
| hellaswag | 54.57 | 0.5323 |
|
| 152 |
+
| openbookqa | TODO | 0.3240 |
|
| 153 |
+
| piqa | TODO | 0.7666 |
|
| 154 |
+
| siqa | TODO | 0.4708 |
|
| 155 |
+
| truthfulqa | TODO | 0.3953 |
|
| 156 |
+
| winogrande | TODO | 0.7017 |
|
| 157 |
| **Multilingual** | | |
|
| 158 |
| Mgsm | TODO | TODO |
|
| 159 |
| mgsm_cot_native | TODO | TODO |
|
| 160 |
| **Math** | | |
|
| 161 |
+
| gsm8k | TODO | 0.7043 |
|
| 162 |
| Mathqa | TODO | TODO |
|
| 163 |
| **Overall** | **TODO** | **TODO** |
|
| 164 |
|