wangclnlp
/

GRAM-RR-LLaMA-3.2-3B-RewardModel

Text Generation

RewardReasoning

Model card Files Files and versions

wangclnlp commited on 30 days ago

Commit

9bdbf53

·

verified ·

1 Parent(s): 68da516

Upload folder using huggingface_hub

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -40,7 +40,7 @@ We evaluate our model on two challenging reward benchmarks, [RM-Bench](https://g
   |**Open-Source Reward Models**||||||
   |Llama-3.1-Nemotron-70B-Reward | 70B | 70.7 | 64.3 | 57.4 | 90.3 | 70.7|
   |Skywork-Reward-Gemma-2-27B | 27B | 71.8 | 59.2 | 56.6 | 94.3 | 70.5|
-  |Skywork-Reward-Llama-3.1-8B | 27B | 69.5 | 60.6 | 54.5 | 95.7 | 70.1|
   |Nemotron-Super | 49B | 73.7 |  91.4 |  75.0 |  90.6 |  82.7 |
   |Nemotron-Super-Multilingual | 49B | **77.2** |  **91.9** |  74.7 |  92.9 |  84.2|
   |**Reasoning Reward Models**||||||
@@ -68,7 +68,7 @@ We evaluate our model on two challenging reward benchmarks, [RM-Bench](https://g
   |**Open-Source Reward Models**||||||
   |Llama-3.1-Nemotron-70B-Reward | 70B | 62.3 |  72.5 |  76.8 |  57.1 |  67.2|
   |Skywork-Reward-Gemma-2-27B | 27B | 59.7 |  66.3 |  83.9 |  50.0 |  65.0|
-  |Skywork-Reward-Llama-3.1-8B | 27B | 59.1  |  64.3 |  76.8 |  50.0 |  62.5|
   |Nemotron-Super | 49B | 71.4 |  73.5 |  87.5 |  76.2 |  77.2 |
   |Nemotron-Super-Multilingual | 49B | 64.9 |  74.5 |  87.5 |  73.8 |  75.2|
   |**Reasoning Reward Models**||||||

   |**Open-Source Reward Models**||||||
   |Llama-3.1-Nemotron-70B-Reward | 70B | 70.7 | 64.3 | 57.4 | 90.3 | 70.7|
   |Skywork-Reward-Gemma-2-27B | 27B | 71.8 | 59.2 | 56.6 | 94.3 | 70.5|
+  |Skywork-Reward-Llama-3.1-8B | 8B | 69.5 | 60.6 | 54.5 | 95.7 | 70.1|
   |Nemotron-Super | 49B | 73.7 |  91.4 |  75.0 |  90.6 |  82.7 |
   |Nemotron-Super-Multilingual | 49B | **77.2** |  **91.9** |  74.7 |  92.9 |  84.2|
   |**Reasoning Reward Models**||||||
   |**Open-Source Reward Models**||||||
   |Llama-3.1-Nemotron-70B-Reward | 70B | 62.3 |  72.5 |  76.8 |  57.1 |  67.2|
   |Skywork-Reward-Gemma-2-27B | 27B | 59.7 |  66.3 |  83.9 |  50.0 |  65.0|
+  |Skywork-Reward-Llama-3.1-8B | 8B | 59.1  |  64.3 |  76.8 |  50.0 |  62.5|
   |Nemotron-Super | 49B | 71.4 |  73.5 |  87.5 |  76.2 |  77.2 |
   |Nemotron-Super-Multilingual | 49B | 64.9 |  74.5 |  87.5 |  73.8 |  75.2|
   |**Reasoning Reward Models**||||||