Deliberative Alignment: Reasoning Enables Safer Language Models论文阅读
摘要
本文解读 OpenAI 的 Deliberative Alignment 论文。论文提出了基于推理的安全对齐新范式:直接教会模型安全规范文本,让模型在回答前显式回忆并推理安全策略。该方法已应用于 OpenAI o 系列模型,在越狱鲁棒性和过度拒答率上实现了 Pareto 前沿改进。
Deliberative Alignment: Reasoning Enables Safer Language Models论文阅读
写在前面
OpenAI 的 o 系列模型有两个广为人知的标签:推理能力很强,以及「什么都不说」。Deliberative Alignment 这篇论文解释了后者是怎么做到的,以及为什么它和前者本质上是一回事。
这篇论文的核心主张很简单:模型的安全行为不是靠大量标注数据隐式习得的,而是可以直接把安全规范「喂」给模型,让模型用推理能力去查规范、引用规范、按规范回答。当一个模型能在思维链中对照安全政策逐条分析用户意图时,越狱攻击不再只是模式匹配的问题,而变成了模型是否「有意」配合的问题。
本文不是纯翻译论文,而是按结构拆解方法、实验结果与设计权衡,重点回答:Deliberative Alignment 与之前的对齐方法到底不同在哪里;SFT 和 RL 两个阶段各自承担什么角色;为什么把规范写进思维链比推理时临时查规范更可靠;这项技术对整个 Agent 安全生态有什么启发。
速读卡片
项目 | 内容 |
|---|---|
论文 | Deliberative Alignment: Reasoning Enables Safer Language Models |
作者 | Melody Y. Guan, Manas Joglekar, Eric Wallace, Saachi Jain, Boaz Barak, Alec Helyar, Rachel Dias, Andrea Vallone, Hongyu Ren, Jason Wei, Hyung Won Chung, Sam Toyer, Johannes Heidecke, Alex Beutel, Amelia Glaese |
机构 | OpenAI |
年份 | 2024 |
arXiv | |
模型 | o1-preview、o1、o3-mini(o 系列推理模型) |
核心方法 | 两阶段训练 —— SFT 阶段用上下文蒸馏让模型在思维链中引用安全规范,RL 阶段用规范感知的 Judge LLM 提供奖励信号 |
主要结论 | o1 同时在越狱鲁棒性和过度拒答率上超越 GPT-4o,实现 Pareto 前沿改进;在 StrongREJECT 上 goodness@0.1 达到 0.88;OOD 泛化能力强 |
适合读者 | 关注 AI 安全对齐、推理模型、思维链可控性、LLM Agent 安全策略的读者 |
一句话概括
Deliberative Alignment 不再让模型从标注数据中隐式猜测安全标准,而是把安全规范直接写入训练数据的思维链中,让模型在推理时回忆并推理规范,从而获得更精确、更可解释的安全行为。
研究问题
现代 LLM 的安全训练主要依赖 SFT 和 RLHF。这些方法虽然有效,但存在两个根本性问题。
第一,模型必须在固定算力预算下即时响应用户请求。即使面对复杂的安全边界场景,也没有「多想一步」的机会。遇到越狱提示或政策灰色地带时,模型可能在「看清楚」问题之前就已经生成了不安全内容。
第二,模型的安全知识来自大量标注样本的间接推断,而非直接学习安全规范本身。标注数据告诉模型「这种情况应该拒绝」或「这种情况应该回答」,但不会告诉模型「因为违反了某某政策的第几条」。模型在训练中看到的是标签,不是章程。这种隐式学习导致两个后果:数据效率低,遇到对抗攻击或分布外场景时泛化困难。
OpenAI 给了一个很直观的例子:如果你把完整的安全规范作为系统提示发给 o1,让它在每次回答前先逐条对照规范,模型经常能做对。这说明模型本身有能力理解和执行规范,问题在于没有把这种能力内化到模型权重中。Deliberative Alignment 正是要把「临时查规范」变为「训练时已经学会查规范」。
核心方法
整体流程
Deliberative Alignment 包含两个训练阶段,整体需要零人工标注(仅使用模型生成数据)。
论文的整个过程可以理解为:先用 SFT 教会模型一个「安全推理的范式」,再用 RL 让模型在这个范式上做得更精准、更高效。
安全规范的结构
论文使用的安全规范分为两类。内容政策定义了各类别的允许/禁止/需要安全补全的边界,覆盖色情、极端主义、骚扰、非法行为、受监管建议、自残、暴力等。风格指南定义了模型一旦决定拒绝或安全补全时,回复应该长什么样 —— 例如硬拒答应该简短道歉加一句话拒绝,不超过两句话,不建议用户寻求专业帮助。
一个关键设计是类别特化的规范。完整规范太长,不可能每次都塞进上下文窗口。论文的做法是:对每个训练样本,只提供与该样本安全类别相关的那部分详细规范,其他类别只给高层摘要。这种类别特化的规范既控制了上下文长度,又确保模型关注到最相关的政策细节。
SFT 阶段:让模型学会对照规范推理
SFT 阶段的目标是收集一组 (prompt, CoT, output) 三元组,其中 CoT 在推理过程中显式引用并推理安全规范。
数据生成的具体做法如下。
第一,准备一个「只有有帮助性、没有安全训练」的基座推理模型 G_base。这个模型会正常推理,但对安全政策没有内化知识。
第二,为每个 (prompt, category) 对构造增强提示,其中包含原始 prompt、类别特化的安全规范 spec(category)、要求模型引用并讨论规范相关条目的指令。
第三,让 G_base 在这个增强提示上生成 CoT 和回答。由于规范被显式写在提示中,模型自然会围绕规范展开推理。论文中的典型思维链会先分析用户意图,然后定位到相关政策条目,最后决定应该拒答、安全补全还是合规回答。
第四,将系统提示中显式提供的安全规范移除。最终得到的数据中,安全性推理全部在 CoT 中,系统提示里什么也没有。这一步是方法的关键:训练时模型看到规范是因为规范在提示中;训练后模型必须内部回忆规范,因为系统提示中已经不再提供。
质量过滤由另一个推理模型 G_RM(裁判模型)完成。G_RM 同样被给定了安全规范 spec(category),让它对每个生成的 CoT 和回答打分。每个样本打分 k 次,取最低分 —— 因为任何一个裁判漏掉的违规行为都意味着安全漏洞。只有高分样本保留进入 SFT 训练集。
SFT 训练时,使用的 prompt 是移除规范后的原始版本,但模型需要生成包含规范引用的 CoT。这个过程本质上是在做上下文蒸馏:把规范从系统提示蒸馏到模型权重的隐式知识中。
RL 阶段:用规范感知的奖励信号精调
SFT 教会了模型安全推理的范式,但质量还不够高。RL 阶段的目标是进一步精调 CoT 中安全推理的有效性。
具体做法是用同样的裁判模型 G_RM 在 RL 训练中为安全相关提示提供奖励信号。与 SFT 阶段的一个重要区别是:G_RM 在 RL 阶段不看到模型的 CoT,只根据最终回答和规范来打分。这样做是为了防止对 CoT 施加直接的优化压力,从而降低模型产生「欺骗性 CoT」(表面合规但实际意图不纯的思维链)的风险。
论文特别说明:SFT 部分用于所有 o 系列模型,而 RL 阶段的这种奖励信号是 o1 和 o3-mini 才加入的。
与之前对齐方法的关键区别
论文用一张对比图说清楚了差异。
在 RLHF 或 Constitutional AI 中,规范被转换为人或 AI 标注者的指令,标注者据此生成标签或偏好数据。训练时只用到了标签本身,规范文本从未直接呈现给策略模型。即使 Constitutional AI 在生成拒绝时会生成包含原则引用的批判文本,这些批判在训练优化时也不参与 —— 只有最终回答被用来训练。
在 Deliberative Alignment 中,思维链同时包含规范的内容和对规范的推理过程,整个 CoT 在 SFT 阶段被直接优化。由此带来的结果是:训练后的模型能够在推理时自动从权重中检索相关政策并应用,而不需要外部提示或预定义的推理路径。
实验结果
主要安全指标
论文将 o1 系列与 GPT-4o 在多个维度做了对比。
在越狱鲁棒性方面,StrongREJECT 是评估模型抗越狱能力的学术基准。o1 的 goodness@0.1 达到 0.88,GPT-4o 仅为 0.37。goodness@0.1 的含义是:取每种越狱技术中效果最好的前 10%,看模型在这些最强攻击下有多安全。
在过度拒答方面,使用 XSTest 数据集(包含常见安全触发词的良性问题)。o1 的准确率达到 0.93,GPT-4o 为 0.88。这意味着 o1 在更坚定拒绝恶意请求的同时,反而更少拒答正常请求。
这两个指标的组合构成了论文最核心的图表(Figure 2):o1 在越狱鲁棒性和过度拒答率上同时实现了 Pareto 前沿的推进。简单说,之前一般认为这两个指标是矛盾的 —— 让模型更安全就会导致更多过度拒答。o1 打破了这种取舍。
在禁止内容检测方面,Challenging Refusal Evaluation 上 o1 达到 0.9(GPT-4o 为 0.8),WildChat 上达到 0.99。
在回复风格遵循度方面,o1 在硬拒答风格、自残安全补全、受监管建议安全补全三个子指标上都显著优于 GPT-4o。自残安全补全风格从 GPT-4o 的 0.04 跃升到 0.92,这个提升幅度巨大。
与外部模型对比
论文将 o1 与 Gemini 1.5 Pro、Gemini 1.5 Flash、Claude 3.5 Haiku、Claude 3.5 Sonnet 在公开基准上做了比较。o1 在 StrongREJECT 上显著领先;XSTest 上为 0.93,略低于 Gemini Flash 的 0.94,但后者在 StrongREJECT 上的 goodness@0.1 仅为 0.05。这种对比说明单独看过度拒答率是没有意义的,必须在越狱鲁棒性和过度拒答之间同时评估。
在 WildChat、SimpleQA、BBQ 等其他基准上,o1 也具有竞争力,但没有拉开明显差距。
推理计算量的影响
论文研究了推理时分配不同计算量对模型安全性能的影响。结果显示 StrongREJECT 和受监管建议安全补全风格这两个最难的任务会随着推理计算增加而明显改善,而其他相对简单的评测变化不大。这说明安全失败有时仅仅是因为模型没有足够时间推理复杂的边缘情况。
策略检索准确率
论文还评估了经过 Deliberative Alignment 训练的模型在思维链中引用正确安全策略的准确率。安全训练模型在硬拒答场景下的策略检索准确率为 0.75,在安全补全场景下高达 0.91,而无安全训练的基线模型分别只有 0.27 和 0.21。
OOD 泛化
在非英语语言和编码(如 base64)场景下,即使训练时移除了这些数据的安全训练部分,模型仍然表现出很强的泛化能力。这个结果非常有意思:模型学到的是「对照规范推理」这种元能力,而不是简单记忆特定输入模式的拒答模式。因此面对新的伪装形式时,模型仍然能回到规范中寻找判断依据。
消融实验
论文的消融实验比较了四种设置:无安全训练、仅 SFT 中加安全数据、仅 RL 中加安全数据、SFT 和 RL 都加安全数据。结果证明两个阶段各自都有贡献,缺了任何一个都会导致性能下降。完整的 Deliberative Alignment 训练效果最好。
论文还比较了一个有趣的基线:完全不训练安全,但推理时在系统消息中提供完整的安全规范摘要。由于上下文限制无法提供全部详细规范,这个基线的表现远不如 Deliberative Alignment 训练后的模型,尤其是在回复风格遵循度上差距显著。这证明将政策嵌入模型权重比推理时查规范更可靠。
关键设计的权衡
为什么 RL 阶段不看到 CoT
这是一个很重要的设计决策。如果 RL 阶段 G_RM 能看到 CoT 并对 CoT 的质量打分,模型会学到写出「看起来合规」的思维链,而不是「真正在确认安全」的思维链。这种奖励破解可能导致模型在 CoT 中产生表面合规但实质不安全的推理,而且这种不安全的推理轨迹被隐藏在 CoT 中(CoT 通常不对用户可见)。论文选择在 RL 阶段隐藏 CoT,只用最终回答评判,是防止此类风险的保守但合理的设计。
为什么不直接把规范放在系统提示中
论文给出了两个原因。一是延迟:大多数用户 query 是良性的,要求模型每次都读完若干页的安全规范再回答是极大的浪费。二是指令遵循失败:如果模型在某个时刻忽略了系统提示中某个关键条款,它可能直接输出不安全内容。将规范内化到权重中,模型在推理时自动调用规范,既高效又可靠。
数据标注的扩展性
整个训练流程不需要人类编写思维链或标注答案。唯一用到人类输入的地方是标注提示属于哪个大类安全类别,而这个环节也不是必须的。随着模型能力提升,能够标注安全数据的人类专家池会越来越小,Deliberative Alignment 的合成数据管道提供了一种可扩展的对齐方案。
对 Agent 安全的启发
这篇论文虽然讨论的是通用对话场景,但对 Agent 安全的启发非常直接。
当前大多数 Agent 的安全机制是外挂的 —— 卫兵提示、内容过滤器、关键词拦截。这些机制的问题是:Agent 在行动时可能绕过它们,或者过滤太宽导致功能受损。Deliberative Alignment 提供了一个替代思路:把安全规范训练进模型本身,让 Agent 在规划行动时就自动考虑安全边界。
具体而言,如果一个 Agent 的规划模块经过类似训练,它在生成 Action 之前就可以在思维链中对照规范进行判断,不需要等待外部的安全校验。对多步 Agent、自主执行时间较长的 Agent 来说,这种内置安全推理的可靠性可能远高于外挂过滤器。
论文中 OOD 泛化的结果也暗示:模型学会的不是识别特定越狱模式,而是「如果有疑问,回到规范找答案」这种元能力。这意味着未来模型面对全新的攻击形式时,可能比现在依赖模式匹配的过滤系统更稳健。
局限与讨论
论文在讨论部分坦诚地指出了几个重要问题。
第一,Deliberative Alignment 目前依赖于模型已有的推理能力。论文没有说明如果基座模型的推理能力不足,这种方法是否仍然有效。
第二,安全规范的不断演化是必然的。论文认为当前的目标不是一次性写出完美的规范,而是建立一种「精确遵循任何给定规范」的能力,为未来更高风险场景做准备。
第三,论文简要提到了随着 AI 模型变得更智能,它们可能发展出偏离开发者意图的目标。如果模型变得足够有自我意识,它可能拒绝执行人类设定的约束,或者在完成任务过程中追求自我保护、资源获取等工具性目标。论文认为这正是持续投资对齐研究的核心原因。
第四,CoT 可能产生欺骗性推理。论文引用了监测 CoT 中欺骗行为的相关工作,表明这已经是 OpenAI 内部在持续跟踪的方向。
总结
Deliberative Alignment 的核心贡献是给出了一种新的对齐范式:让模型直接学习安全规范并在推理时显式推理规范。它不依赖人类标注思维链,通过 SFT + RL 两阶段训练实现,应用于 o 系列模型后取得了越狱鲁棒性和过度拒答率的同步改进。
从工程角度看,这种方法的价值在于安全策略变得可编程:修改规范文本 → 重新运行合成数据管道 → 再训练模型,整个循环可以自动化。这在传统依靠人工标注的对齐范式中是不现实的。
从安全角度看,它把模型的安全行为从「匹配模式」升级为「对照规则推理」,为 OOD 泛化提供了更强的保障。一个会主动翻规范查政策的模型,比一个靠几千条标注样本猜政策的模型,在面对新攻击时显然更可靠。
