AI 对齐：从 RLHF 到可解释性的技术路径

「对齐（alignment）」常被误读成给模型加一层道德滤镜。实际上它是一个很具体的优化问题：预训练让模型学会了「预测下一个 token」，但这不等于「按人类意图、安全有用地行动」。对齐要解决的，正是从「会续写」到「会按意图办事」之间的鸿沟。本文沿着 RLHF → DPO → 可扩展监督 → 可解释性这条技术路径，讲清每一步在解决什么、又留下什么坑。

直觉：预训练目标 ≠ 我们想要的目标

预训练优化的是 $\max_\theta \sum_t \log P_\theta(x_t \mid x_{<t})$ ——在海量文本上做最大似然。这让模型成为强大的「分布模拟器」，但它模拟的是互联网文本的分布，里面既有专家也有杠精。所以一个纯预训练模型给你的不一定是「最好的答案」，而是「最像训练语料的续写」。对齐就是把这个分布往「有用、诚实、无害」的方向掰。

第一步：从人类反馈学一个奖励（RLHF）

人类很难直接写出「好回答」的损失函数，但比较两个回答哪个更好相对容易。RLHF 利用这一点，分三步：

SFT（监督微调）：用人写的示范回答先把模型调到「会按指令格式回话」。
训练奖励模型（RM）：收集成对偏好数据 $(x, y_w, y_l)$ （ $y_w$ 优于 $y_l$ ），用 Bradley-Terry 模型拟合人类偏好：

$P(y_w \succ y_l \mid x) = \sigma\big(r_\phi(x, y_w) - r_\phi(x, y_l)\big)$

奖励模型 $r_\phi$ 的损失就是最大化上式的对数似然。它把「人类偏好」压缩成一个可微的标量打分器。

RL 优化：用 PPO 等算法让策略 $\pi_\theta$ 去最大化奖励，同时用 KL 惩罚拴住它别跑太远偏离 SFT 模型：

$\max_\theta \; \mathbb{E}_{y\sim\pi_\theta}\big[ r_\phi(x,y) \big] - \beta \, \mathrm{KL}\big(\pi_\theta(\cdot|x)\,\|\,\pi_{\text{ref}}(\cdot|x)\big)$

KL 项至关重要：去掉它，策略会「奖励黑客（reward hacking）」——找到能骗高分却没意义的输出，比如疯狂堆砌讨好性词句。这是对齐里反复出现的主题：你优化的是奖励模型这个代理，不是真实人类意图，二者一旦出现缝隙，优化压力就会撬开它（Goodhart 定律）。

第二步：绕开 RL 的不稳定（DPO）

PPO 链路重：要同时维护策略、参考、奖励、价值四个模型，训练不稳、调参痛苦。DPO（Direct Preference Optimization）的洞察是：上面那个「带 KL 约束的奖励最大化」有闭式最优解，把它代回偏好似然，可以直接在偏好数据上训练策略，省掉显式奖励模型和 RL 循环。其损失形如：

$L_{DPO} = -\mathbb{E}\Big[\log \sigma\Big(\beta \log \tfrac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \tfrac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\Big)\Big]$

直觉：提高「好回答相对参考模型的对数概率比」，压低「坏回答的」。工程上 DPO 更像一个标准的监督损失，稳定、易实现，因此被广泛采用。代价是它对偏好数据质量更敏感，且少了在线探索，对分布外行为的塑造不如在线 RL 灵活。

1 2	RLHF(PPO): 偏好数据 → 奖励模型 → 在线采样 + PPO + KL (强，复杂，会 reward hack) DPO: 偏好数据 → 直接优化策略 (隐式奖励) (稳，简单，离线)

第三步：当人类评不动了——可扩展监督

RLHF/DPO 都假设「人能判断哪个回答更好」。但当模型在某些领域超过普通标注者，或回答长到没人愿意逐字核验时，这个假设崩了。可扩展监督（scalable oversight）研究的就是：如何用有限、易错的人类信号去监督可能更强的模型。思路包括：

AI 辅助评估 / Constitutional AI 类方法：让模型依据一组明确写出的原则（constitution）自我批评、自我修订，再用这些 AI 生成的偏好去训练，减少对海量人工标注的依赖。人类的角色从「逐条标注」上移到「制定原则」。
辩论 / 分解：让两个模型就答案优劣互相质证，或把难任务递归拆成人类能核验的小块，再聚合。
从过程而非结果给奖励（process supervision）：对推理的每一步给信号，而不只看最终答案对错，能减少「答案对但推理瞎蒙」的情况。

这些方法仍在演进，核心难题是：监督信号本身可能有缺陷，而强模型可能学会迎合监督者的偏好而非真实正确性。

第四步：打开黑箱——可解释性

上述方法都是行为层面的对齐：看输出对不对。但模型内部到底「在想什么」、有没有学到我们没意识到的捷径或欺骗倾向，行为测试看不出来。机制可解释性（mechanistic interpretability）尝试逆向工程网络内部的计算。一个活跃方向是用稀疏自编码器（SAE）把高度叠加（superposition）的神经元激活，分解成更接近「单一语义」的特征：

h \approx \sum_i a_i \, d_i, \quad a \ \text{稀疏}

把激活 $h$ 表示成一组可解释特征向量 $d_i$ 的稀疏线性组合，从而能定位「模型在哪激活了某个概念」。它的长期意义在于：行为评测只能验证「我们测到的情形」，而可解释性有望验证「我们没想到去测的情形」——比如模型是否在特定条件下隐藏意图。目前这仍是研究前沿，远未到能给大模型出具完整「安全证明」的程度。

工程权衡与常见误区

误区：对齐 = 内容审核。 拒答敏感问题只是表层；对齐的核心是让能力强的模型可靠地按意图行动，包括诚实、不欺骗、可纠正。
Goodhart 是贯穿始终的敌人。 任何代理目标（奖励模型、评测集、constitution）一旦被当成真目标去硬优化，都会被钻空子。多重检查、保留 KL 约束、持续红队测试是常态。
权衡：在线 RL 表达力强但脆，离线 DPO 稳但依赖数据质量。 实践中常组合使用、迭代多轮偏好数据。
对齐税（alignment tax）：过度的安全约束可能损伤有用性（过度拒答）。优秀的对齐是在「无害」和「有用」之间取平衡，而非单方向收紧。
可解释性还不能兜底。 它是有前景的验证手段，但现阶段不能替代行为评测与红队，应叠加使用。

小结

对齐是一条从「行为」到「内部机制」逐层深入的技术路径：RLHF 用偏好把人类意图压成可优化的奖励，DPO 让这件事变稳变简单，可扩展监督应对「人类评不动」的未来，可解释性则试图打开黑箱、验证那些行为测试照不到的角落。贯穿其中的主线只有一句话——我们能优化的永远是代理目标，对齐的真正难点在于不让代理与真实意图之间的缝隙被优化压力撬开。