baichuan-inc
/

Baichuan-M2-32B

Text Generation

text-generation-inference

Model card Files Files and versions Community

yuanshuai commited on 15 days ago

Commit

af40883

·

verified ·

1 Parent(s): 5c23008

Upload folder using huggingface_hub

Files changed (1) hide show

README.md +7 -7

README.md CHANGED Viewed

@@ -37,14 +37,14 @@ Baichuan-M2 采用了三个核心技术创新：首先通过**大型验证器系
 ### HealthBench指标
-| 模型名称 | healthbench | healthbench-hard | healthbench-Consensus |
 |----------|-------------|------------------|-----------------------|
 | Baichuan-M2 | 60.1 | 34.7 | 91.5 |
 | gpt-oss-120b | 57.6 | 30 | 90 |
 | Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
-| deepseek-r1-250528 | 53.6 | 22.6 | 91.5 |
-| glm-4.5 | 47.8 | 18.7 | 85.3 |
-| kimi-k2 | 43 | 10.7 | 90.9 |
 | gpt-oss-20b | 42.5 | 10.8 | 82.6 |
 ### 通用指标
@@ -53,11 +53,11 @@ Baichuan-M2 采用了三个核心技术创新：首先通过**大型验证器系
 |--------|-----------------|-----------|
 | AIME24 | 83.4 | 81.4 |
 | AIME25 | 72.9 | 72.9 |
-| GPQA-Diamond | 61.5 | 68.4 |
 | CFBench | 77.6 | 75.7 |
 | WritingBench | 8.56 | 7.90 |
-*备注：AIME 和 GPQA 的 max_length 设为 64k，其他的为 32k，温度统一为 0.6。*
 ## 🛠️ 技术特色
@@ -69,7 +69,7 @@ Baichuan-M2 采用了三个核心技术创新：首先通过**大型验证器系
 ### 医疗领域适应
 - **Mid-Training**：医疗知识注入的同时保持通用能力
-- **端到端强化学习**：多阶段 RL 策略优化
 - **通专兼顾**：2:2:1 配比的医疗、通用、数学数据
 ## 🔧 快速开始

 ### HealthBench指标
+| 模型名称 | HealthBench | HealthBench-Hard | HealthBench-Consensus |
 |----------|-------------|------------------|-----------------------|
 | Baichuan-M2 | 60.1 | 34.7 | 91.5 |
 | gpt-oss-120b | 57.6 | 30 | 90 |
 | Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
+| Deepseek-R1-0528 | 53.6 | 22.6 | 91.5 |
+| GLM-4.5 | 47.8 | 18.7 | 85.3 |
+| Kimi-K2 | 43 | 10.7 | 90.9 |
 | gpt-oss-20b | 42.5 | 10.8 | 82.6 |
 ### 通用指标
 |--------|-----------------|-----------|
 | AIME24 | 83.4 | 81.4 |
 | AIME25 | 72.9 | 72.9 |
+| Arena-Hard-v2.0 | 45.8 | 44.5 |
 | CFBench | 77.6 | 75.7 |
 | WritingBench | 8.56 | 7.90 |
+*备注：AIME 的 max_tokens 设为 64k，其他评测集设为 32k，温度统一为 0.6。*
 ## 🛠️ 技术特色
 ### 医疗领域适应
 - **Mid-Training**：医疗知识注入的同时保持通用能力
+- **强化学习**：多阶段 RL 策略优化
 - **通专兼顾**：2:2:1 配比的医疗、通用、数学数据
 ## 🔧 快速开始