Upload folder using huggingface_hub
Browse files
README.md
CHANGED
@@ -37,14 +37,14 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
|
|
37 |
|
38 |
### HealthBench指标
|
39 |
|
40 |
-
| 模型名称 |
|
41 |
|----------|-------------|------------------|-----------------------|
|
42 |
| Baichuan-M2 | 60.1 | 34.7 | 91.5 |
|
43 |
| gpt-oss-120b | 57.6 | 30 | 90 |
|
44 |
| Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
|
45 |
-
|
|
46 |
-
|
|
47 |
-
|
|
48 |
| gpt-oss-20b | 42.5 | 10.8 | 82.6 |
|
49 |
|
50 |
### 通用指标
|
@@ -53,11 +53,11 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
|
|
53 |
|--------|-----------------|-----------|
|
54 |
| AIME24 | 83.4 | 81.4 |
|
55 |
| AIME25 | 72.9 | 72.9 |
|
56 |
-
|
|
57 |
| CFBench | 77.6 | 75.7 |
|
58 |
| WritingBench | 8.56 | 7.90 |
|
59 |
|
60 |
-
*备注:AIME
|
61 |
|
62 |
|
63 |
## 🛠️ 技术特色
|
@@ -69,7 +69,7 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
|
|
69 |
|
70 |
### 医疗领域适应
|
71 |
- **Mid-Training**:医疗知识注入的同时保持通用能力
|
72 |
-
-
|
73 |
- **通专兼顾**:2:2:1 配比的医疗、通用、数学数据
|
74 |
|
75 |
## 🔧 快速开始
|
|
|
37 |
|
38 |
### HealthBench指标
|
39 |
|
40 |
+
| 模型名称 | HealthBench | HealthBench-Hard | HealthBench-Consensus |
|
41 |
|----------|-------------|------------------|-----------------------|
|
42 |
| Baichuan-M2 | 60.1 | 34.7 | 91.5 |
|
43 |
| gpt-oss-120b | 57.6 | 30 | 90 |
|
44 |
| Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
|
45 |
+
| Deepseek-R1-0528 | 53.6 | 22.6 | 91.5 |
|
46 |
+
| GLM-4.5 | 47.8 | 18.7 | 85.3 |
|
47 |
+
| Kimi-K2 | 43 | 10.7 | 90.9 |
|
48 |
| gpt-oss-20b | 42.5 | 10.8 | 82.6 |
|
49 |
|
50 |
### 通用指标
|
|
|
53 |
|--------|-----------------|-----------|
|
54 |
| AIME24 | 83.4 | 81.4 |
|
55 |
| AIME25 | 72.9 | 72.9 |
|
56 |
+
| Arena-Hard-v2.0 | 45.8 | 44.5 |
|
57 |
| CFBench | 77.6 | 75.7 |
|
58 |
| WritingBench | 8.56 | 7.90 |
|
59 |
|
60 |
+
*备注:AIME 的 max_tokens 设为 64k,其他评测集设为 32k,温度统一为 0.6。*
|
61 |
|
62 |
|
63 |
## 🛠️ 技术特色
|
|
|
69 |
|
70 |
### 医疗领域适应
|
71 |
- **Mid-Training**:医疗知识注入的同时保持通用能力
|
72 |
+
- **强化学习**:多阶段 RL 策略优化
|
73 |
- **通专兼顾**:2:2:1 配比的医疗、通用、数学数据
|
74 |
|
75 |
## 🔧 快速开始
|