Arcade-3B: 基于隐藏层状态空间正交解耦的 SLM 优化

Community Article Published March 15, 2026

在参数规模受限的轻量化模型(Small Language Models, SLMs)中,模型往往难以在高维搜索空间内有效区分“任务状态表现”与“底层逻辑约束”。传统的微调方法往往导致这两者在潜在空间(Latent Space)中产生耦合冲突,限制了模型的收敛上限。

Arcade-3B 通过引入 SC-OrthFine 架构,核心目的是实现状态空间搜索的解耦:将模型的搜索行为强制投影为互相正交的状态向量(State Vector)约束向量(Constraint Vector)

1. 状态空间搜索的耦合困境

在 3B 规模的模型中,隐藏层输出 H 承载了极高的信息密度。传统的 Lce L_{ce} (交叉熵损失)在梯度回传时,会无差别地调整权重以拟合目标分布。然而,在处理逻辑推理(如 GSM8K)或代码生成(如 HumanEval)时,模型需要同时处理:

  1. 语义状态(State):生成当前 Token 的上下文表征。
  2. 逻辑约束(Constraint):遵循语法、数学规则或长程依赖的结构约束。

当这两者在同一个流形(Manifold)上重叠时,搜索行为会产生严重的干涉。

dia

2. SC-Orthogonal:正交投影解耦机制

为了解决上述问题,我们设计了 SC-Orthogonal 优化循环。其核心逻辑是将隐藏状态 HRB×L×D H \in \mathbb{R}^{B \times L \times D} 沿特征维度进行切分,定义两个独立的子空间:

  • **状态投影半区 (State Half, S S )**:关注瞬时预测的特征表达。
  • **约束投影半区 (Constraint Half, C C )**:承载全局的逻辑边界与结构约束。

数学定义与损失函数

为了确保搜索行为的解耦,我们引入了正交性约束。通过最小化 S 与 C 的内积,强制其在几何上保持 90 90^\circ 正交:

Dot=SC=i=1D/2SiCiDot = S \cdot C = \sum_{i=1}^{D/2} S_i C_i

为了在训练过程中实现这一约束,我们定义了正交损失函数 Lorth L_{orth}

Lorth=1BLb,l(Sb,lCb,l)2L_{orth} = \frac{1}{B \cdot L} \sum_{b,l} (S_{b,l} \cdot C_{b,l})^2

最终的联合优化目标函数为:

Ltotal=Lce+λLorthL_{total} = L_{ce} + \lambda \cdot L_{orth}

通过引入 lambdalambda 调节的正交惩罚项,模型被强制在相互独立的子空间内进行参数搜索,从而避免了特征坍缩。

benchmark_comparison

3. 实验分析:解耦带来的性能增益

实验结果表明,这种状态空间的解耦在逻辑密集型任务中表现尤为突出:

  • 逻辑推理的鲁棒性:在 GSM8K 评测中,Arcade-3B 达到了 62.9% 的准确率。这证明了通过正交约束,模型能够更好地隔离数学逻辑约束与语言生成状态,减少了推理过程中的“幻觉”干扰。
  • 编码效率:在 HumanEval 任务上, 41.5% 的得分大幅领先于未采用正交解耦的同规模模型(如 Qwen1.5-1.8B 的 27.4% ),显示出正交子空间对复杂结构化数据的搜索效率更高。
Benchmark Arcade-3B Gemma-2-2B Llama-2-7B
MMLU 52.9% 52.4% 45.3%
GSM8K 62.9% 50.9% 14.6%
HumanEval 41.5% 32.3% 12.8%

结论

Arcade-3B 的技术路径证明,对于小参数量模型,单纯增加数据量或通过蒸馏获取 Logits 是不够的。通过 SC-OrthFine 这种底层的数学约束,从几何视角实现状态空间的搜索解耦,是提升模型“逻辑密度”的有效手段。

Community

Sign up or log in to comment