yuanshuai commited on
Commit
af40883
·
verified ·
1 Parent(s): 5c23008

Upload folder using huggingface_hub

Browse files
Files changed (1) hide show
  1. README.md +7 -7
README.md CHANGED
@@ -37,14 +37,14 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
37
 
38
  ### HealthBench指标
39
 
40
- | 模型名称 | healthbench | healthbench-hard | healthbench-Consensus |
41
  |----------|-------------|------------------|-----------------------|
42
  | Baichuan-M2 | 60.1 | 34.7 | 91.5 |
43
  | gpt-oss-120b | 57.6 | 30 | 90 |
44
  | Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
45
- | deepseek-r1-250528 | 53.6 | 22.6 | 91.5 |
46
- | glm-4.5 | 47.8 | 18.7 | 85.3 |
47
- | kimi-k2 | 43 | 10.7 | 90.9 |
48
  | gpt-oss-20b | 42.5 | 10.8 | 82.6 |
49
 
50
  ### 通用指标
@@ -53,11 +53,11 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
53
  |--------|-----------------|-----------|
54
  | AIME24 | 83.4 | 81.4 |
55
  | AIME25 | 72.9 | 72.9 |
56
- | GPQA-Diamond | 61.5 | 68.4 |
57
  | CFBench | 77.6 | 75.7 |
58
  | WritingBench | 8.56 | 7.90 |
59
 
60
- *备注:AIME 和 GPQA max_length 设为 64k,其他的为 32k,温度统一为 0.6。*
61
 
62
 
63
  ## 🛠️ 技术特色
@@ -69,7 +69,7 @@ Baichuan-M2 采用了三个核心技术创新:首先通过**大型验证器系
69
 
70
  ### 医疗领域适应
71
  - **Mid-Training**:医疗知识注入的同时保持通用能力
72
- - **端到端强化学习**:多阶段 RL 策略优化
73
  - **通专兼顾**:2:2:1 配比的医疗、通用、数学数据
74
 
75
  ## 🔧 快速开始
 
37
 
38
  ### HealthBench指标
39
 
40
+ | 模型名称 | HealthBench | HealthBench-Hard | HealthBench-Consensus |
41
  |----------|-------------|------------------|-----------------------|
42
  | Baichuan-M2 | 60.1 | 34.7 | 91.5 |
43
  | gpt-oss-120b | 57.6 | 30 | 90 |
44
  | Qwen3-235B-A22B-Thinking-2507 | 55.2 | 25.9 | 90.6 |
45
+ | Deepseek-R1-0528 | 53.6 | 22.6 | 91.5 |
46
+ | GLM-4.5 | 47.8 | 18.7 | 85.3 |
47
+ | Kimi-K2 | 43 | 10.7 | 90.9 |
48
  | gpt-oss-20b | 42.5 | 10.8 | 82.6 |
49
 
50
  ### 通用指标
 
53
  |--------|-----------------|-----------|
54
  | AIME24 | 83.4 | 81.4 |
55
  | AIME25 | 72.9 | 72.9 |
56
+ | Arena-Hard-v2.0 | 45.8 | 44.5 |
57
  | CFBench | 77.6 | 75.7 |
58
  | WritingBench | 8.56 | 7.90 |
59
 
60
+ *备注:AIME 的 max_tokens 设为 64k,其他评测集设为 32k,温度统一为 0.6。*
61
 
62
 
63
  ## 🛠️ 技术特色
 
69
 
70
  ### 医疗领域适应
71
  - **Mid-Training**:医疗知识注入的同时保持通用能力
72
+ - **强化学习**:多阶段 RL 策略优化
73
  - **通专兼顾**:2:2:1 配比的医疗、通用、数学数据
74
 
75
  ## 🔧 快速开始