Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -355,16 +355,20 @@ evalplus.evaluate \
 #### Open LLM Leaderboard evaluation scores
 <table>
   <tr>
-   <td><strong>Benchmark</strong>
-   </td>
-   <td><strong>Mistral-Small-3.1-24B-Instruct-2503</strong>
-   </td>
-   <td><strong>Mistral-Small-3.1-24B-Instruct-2503-quantized.w4a16<br>(this model)</strong>
-   </td>
-   <td><strong>Recovery</strong>
-   </td>
   </tr>
   <tr>
    <td>MMLU (5-shot)
    </td>
    <td>80.67
@@ -434,5 +438,79 @@ evalplus.evaluate \
    <td><strong>99.5%</strong>
    </td>
   </tr>
 </table>

 #### Open LLM Leaderboard evaluation scores
 <table>
   <tr>
+   <th>Category
+   </th>
+   <th>Benchmark
+   </th>
+   <th>Mistral-Small-3.1-24B-Instruct-2503
+   </th>
+   <th>Mistral-Small-3.1-24B-Instruct-2503-quantized.w4a16<br>(this model)
+   </th>
+   <th>Recovery
+   </th>
   </tr>
   <tr>
+   <td rowspan="7" ><strong>OpenLLM v1</strong>
+   </td>
    <td>MMLU (5-shot)
    </td>
    <td>80.67
    <td><strong>99.5%</strong>
    </td>
   </tr>
+  <tr>
+   <td rowspan="3" ><strong></strong>
+   </td>
+   <td>MMLU-Pro (5-shot)
+   </td>
+   <td>67.25
+   </td>
+   <td>66.56
+   </td>
+   <td>99.0%
+   </td>
+  </tr>
+  <tr>
+   <td>GPQA CoT main (5-shot)
+   </td>
+   <td>42.63
+   </td>
+   <td>47.10
+   </td>
+   <td>110.5%
+   </td>
+  </tr>
+  <tr>
+   <td>GPQA CoT diamond (5-shot)
+   </td>
+   <td>45.96
+   </td>
+   <td>44.95
+   </td>
+   <td>97.80%
+   </td>
+  </tr>
+  <tr>
+   <td rowspan="4" ><strong>Coding</strong>
+   </td>
+   <td>HumanEval pass@1
+   </td>
+   <td>84.70
+   </td>
+   <td>84.60
+   </td>
+   <td>99.9%
+   </td>
+  </tr>
+  <tr>
+   <td>HumanEval+ pass@1
+   </td>
+   <td>79.50
+   </td>
+   <td>79.90
+   </td>
+   <td>100.5%
+   </td>
+  </tr>
+  <tr>
+   <td>MBPP pass@1
+   </td>
+   <td>71.10
+   </td>
+   <td>70.10
+   </td>
+   <td>98.6%
+   </td>
+  </tr>
+  <tr>
+   <td>MBPP+ pass@1
+   </td>
+   <td>60.60
+   </td>
+   <td>60.70
+   </td>
+   <td>100.2%
+   </td>
+  </tr>
 </table>