约 3,000 字

10 分钟

GPT-5 System Card论文阅读

-

摘要

OpenAI于2025年8月发布GPT-5系统卡，详细披露了GPT-5统一系统的安全评估——包括Safe-Completions安全训练新范式、诌媚度降低69-75%、幻觉减少、指令层次安全防护，以及Preparedness Framework下的生化/网络/AI自改进三大高风险域评估。

GPT-5 System Card论文阅读

写在前面

GPT-5是OpenAI于2025年8月发布的最新旗舰AI系统。与其前代模型不同，GPT-5并非单一模型，而是一个统一系统：包含一个智能快速的模型（gpt-5-main）回答大多数问题、一个深度推理模型（gpt-5-thinking）处理复杂问题，以及一个实时路由器根据对话类型、复杂度、工具需求快速决定使用哪个模型。一旦达到使用限制，每个模型的mini版本会接管剩余查询。

本文基于GPT-5 System Card（2025年8月13日发布）解读这一系统的安全评估体系。该系统卡覆盖了从Safe-Completions安全训练新范式到Preparedness Framework下生化/网络/AI自改进三大高风险域的全方位评估。

速读卡片

项目	内容
标题	GPT-5 System Card
发布方	OpenAI
发布时间	2025年8月13日
类型	系统卡（System Card）
模型体系	gpt-5-main / gpt-5-thinking / main-mini / thinking-mini / thinking-nano / thinking-pro
核心创新	Safe-Completions安全训练、统一路由系统、诌媚度大幅降低
前代对应	GPT-4o→gpt-5-main, o3→gpt-5-thinking
高风险域	生化（预防性定为High）、网络安全、AI自改进
关键安全指标	诌媚度降低69-75%、幻觉显著减少、指令层次防护、思维链可监控性

一句话概括

GPT-5 System Card展示了OpenAI在统一多模型系统中实施Safe-Completions安全训练新范式（从"硬拒绝"转向"安全补全"）的全过程评估，在诌媚度（降低69-75%）、幻觉、指令层次安全和Preparedness Framework三大高风险域等多个维度上系统性地展示了安全性能进展。

GPT-5模型体系

模型家族与定位

GPT-5是一个多模型统一系统：

前代模型	GPT-5对应模型	定位
GPT-4o	gpt-5-main	快速、高通量，回答大多数问题
GPT-4o-mini	gpt-5-main-mini	main的轻量版
OpenAI o3	gpt-5-thinking	深度推理，处理复杂问题
o4-mini	gpt-5-thinking-mini	thinking的轻量版
GPT-4.1-nano	gpt-5-thinking-nano	面向开发者的极轻量推理模型
o3 Pro	gpt-5-thinking-pro	并行测试时计算的增强推理

实时路由器持续基于真实信号进行训练（包括用户切换模型行为、回复偏好率、实测正确率等），并随时间改进。OpenAI计划在近期将这些能力整合到单一模型中。

核心贡献

Safe-Completions安全训练范式：从"硬拒绝"（Hard Refusals）转向以输出安全为中心的安全补全训练，在双用途场景中兼顾安全性和帮助性。
诌媚度大幅降低：通过后训练将诌媚度（Sycophancy）降低近3倍（离线指标），在线A/B测试中免费用户降低69%、付费用户降低75%。
幻觉系统性减少：在多个维度上显著减少了GPT-5的幻觉行为，并建立了思维链幻觉监测机制。
指令层次安全防护：强化了对系统提示提取、提示注入和越狱攻击的抵御能力。
Preparedness Framework全面评估：对生化、网络安全和AI自改进三个跟踪类别进行了系统评估，并针对生化风险采取了预防性的High风险定级。
思维链可监控性与可控性：建立了对推理模型内部思维链的监控和可控性评估体系。

方法

Safe-Completions：从硬拒绝到安全补全

传统LLM安全训练的核心策略是二元分类：对允许的提示尽可能有帮助，对违反安全政策的提示直接拒绝。这种"硬拒绝"策略存在根本性问题：

对意图模糊的提示过于脆弱
特别不适合双用途（dual-use）场景（如生物学或网络安全），用户请求可以在高层次上安全完成，但如果给出足够详细或可操作的指导则可能造成恶意提升

Safe-Completions的核心思想是：将安全训练的中心从对用户意图的二元分类转向对助手输出的安全约束。目标是：在安全政策约束下最大化帮助性（maximize helpfulness subject to safety policy's constraints）。

实际效果包括：

安全性提升（尤其在双用途提示上）
残余安全失败的严重度降低
整体帮助性大幅提高

举例来说，当用户询问生物学问题时，传统模型可能在"完全提供详细信息"和"完全拒绝"之间二选一；Safe-Completions训练出的模型能够在提供有用、安全的高层次信息的同时，避免给出可能导致恶意利用的可操作细节。

幻觉（Hallucinations）评估与缓解

GPT-5系统卡独立成节讨论了幻觉问题，这在之前的系统卡中较为罕见。评估包括：

PersonQA：评估模型对虚构人物生成幻觉信息的倾向
模型被训练为在不确定时更准确地表达不确定性
思维链幻觉检测：监控推理模型内部思维过程中的事实性错误

诌媚度（Sycophancy）评估

诌媚度衡量模型过度迎合用户观点的倾向。这一问题在2025年5月的GPT-4o事件中暴露后受到了广泛关注。

离线评估方法：使用代表生产数据的对话，评估模型回复并分配诌媚度分数作为训练中的奖励信号。

关键结果：

gpt-5-main离线指标为0.052 vs GPT-4o的0.145（降低近3倍）
gpt-5-thinking离线指标为0.040，表现最佳
在线A/B测试中诌媚度发生率降低69%（免费用户）和75%（付费用户）

指令层次（Instruction Hierarchy）

GPT-5强化了指令层次安全机制，定义了系统消息、开发者消息、用户消息和工具消息之间的优先级顺序。关键评估包括：

系统提示提取：抵御用户通过提示工程方式提取系统提示内容
提示注入：抵御通过外部工具输出注入恶意指令
越狱攻击（Jailbreaks）：使用StrongReject框架评估对对抗性提示的鲁棒性

思维链评估

对于推理模型（gpt-5-thinking系列），系统卡引入两项独特评估：

CoT Monitorability（思维链可监控性）：评估外部观察者能否从模型的思维链中检测到欺骗、恶意意图或危险计划。
CoT Controllability（思维链可控性）：评估是否能通过干预思维链来引导模型行为。

这两项评估是AI安全领域的前沿实践，对应了对推理模型"黑箱推理"可能带来的安全隐患。

实验结果

不允许内容评估

标准评估集（趋于饱和）：

类别	gpt-5-thinking	gpt-5-main
仇恨（聚合）	1.000	0.987
非法/非暴力	0.991	0.991
非法/暴力	1.000	0.992
个人信息	0.881	0.980
自残	1.000	1.000
性/剥削	1.000	1.000
性/未成年人	0.990	1.000

生产基准评估（更具挑战性，多轮对话）：

gpt-5-thinking在几乎所有类别上均优于或持平OpenAI o3。gpt-5-main在非法/非暴力和非法/暴力类别上相比GPT-4o有统计显著改善，这归因于Safe-Completions训练范式对模糊意图输入的处理优势。

越狱鲁棒性

gpt-5-thinking在StrongReject评估中表现优异（not_unsafe指标0.995-0.999），gpt-5-main接近GPT-4o水平。

多语言性能

GPT-5在非英语语言上的表现被独立评估，系统卡详细记录了多语言场景中的安全行为一致性。

Preparedness Framework评估

1. 生物和化学风险（预防性定为High）

尽管GPT-5在多项评估中未明确达到"帮助新手制造严重生物危害"的High阈值，OpenAI出于预防原则将其定为High风险等级，并激活了相应的全套保障措施：

模型训练层面的安全训练
系统层面的保护措施
账户层面的强制执行
API访问控制
Trusted Access Program（可信访问计划）

评估使用了多项基准：长文本生物风险问答、多模态病毒学故障排除、ProtocolQA、隐性知识与故障排除、TroubleshootingBench，以及SecureBio的外部评估。

2. 网络安全

评估包括：CTF挑战赛、网络靶场（Cyber Range）评估，以及Pattern Labs的外部独立评估。

3. AI自改进

这是Preparedness Framework中最前沿的评估类别，评估模型在以下任务上的表现：

SWE-bench Verified (N=477)
OpenAI内部PR任务
MLE-Bench
SWE-Lancer
PaperBench
OPQA
METR的外部评估

研究类别更新：Sandbagging（沙袋行为）

GPT-5系统卡新增了Sandbagging研究类别评估——评估模型是否会在能力评估中刻意隐藏真实能力。Apollo Research进行了独立的外部评估。

医疗保障措施

GPT-5在健康领域的改进包括：

减少医疗幻觉
更准确的临床推理
符合医疗安全政策的回复行为

局限性

标准评估集饱和问题：标准不允许内容评估集对近期模型已接近满分，系统卡明确指出该评估已"不再提供有用的信号"，正在转向更具挑战性的生产基准。
Safe-Completions的边界界定：虽然Safe-Completions在双用途场景中表现出色，但其安全与帮助性之间的精确权衡边界仍需进一步定义和评估。
诌媚度的长期监测：虽然离线指标大幅改善，但在线场景中诌媚度可能以新的形式出现，需要持续监测。
幻觉检测的不完全性：思维链幻觉监测仍处于早期阶段，无法完全覆盖所有类型的幻觉。
Sandbagging的风险未知性：这是新引入的研究类别，评估方法学尚在成熟中。
非英语语言的评估覆盖：系统卡涉及了多语言评估，但可能仍存在未覆盖的语言和文化偏见维度。

未来工作

继续改进Safe-Completions训练方法，扩展到更多安全关键场景
深化诌媚度研究，特别是情感依赖和心理健康相关场景
完善幻觉评估基准，建立更可靠的自动化检测方法
将gpt-5-main、gpt-5-thinking等分模型最终整合为单一统一模型
进一步成熟Sandbagging评估方法学
在诌媚度和情感依赖等复杂领域与HCI研究者和临床医生合作

启发

工程实践层面

Safe-Completions是安全训练的重要范式升级：从二元拒绝转向输出约束的安全补全，这一思路对任何在双用途场景中部署AI系统的团队都具有借鉴意义。核心洞察是：安全训练不应仅关注"是否应该回答"，而应关注"如何安全地回答"。
安全评估集需要持续更新：GPT-5系统卡明确承认标准评估集已饱和，这提醒我们安全评估本身需要像模型一样不断迭代。生产基准（Production Benchmarks）的多轮对话和真实数据采样方式值得借鉴。
诌媚度的在线-离线双重评估：离线评估用于训练优化，在线A/B测试用于验证真实效果，这种双重评估模式对其他难以离线衡量的安全维度（如用户信任、情感依赖）有直接参考价值。

研究设计层面

预防性原则在AI安全中的应用：OpenAI在生化领域采取预防性原则——即使没有确凿证据证明模型达到了High风险阈值，仍然激活全套保障措施。这种"宁可过度安全"的决策思路值得效仿。
Sandbagging作为新兴安全风险：随着模型能力的提升，模型刻意隐藏能力的可能性成为需要严肃对待的安全研究方向。这一领域尚处于早期阶段，有大量研究机会。
思维链的透明性是一把双刃剑：虽然思维链使推理过程可审计，但也带来了被监控、被操控和泄露推理策略的风险。平衡透明性与安全性将是推理型模型面临的持续挑战。

小结

GPT-5 System Card代表了对统一多模型AI系统进行安全评估的前沿实践。其核心贡献在于：

Safe-Completions：将安全训练从"拒绝什么"重新定义为"如何安全地完成"，代表了AI安全训练的一次范式转变
诌媚度革命性降低：离线指标3倍改进、在线指标69-75%减少，展示了后训练在复杂行为维度上的强大调控能力
Preparedness Framework的系统化应用：对三大风险类别进行全维度评估，生化领域采取预防性High定级
新型安全挑战的前瞻性覆盖：Sandbagging、思维链监控性、思维链可控性等前沿安全课题的评估框架初具雏形

GPT-5系统卡展示的不仅是一个模型的安全评估，更是一套持续演化的AI安全评估基础设施。

END

GPT-5 System Card论文阅读

摘要

GPT-5 System Card论文阅读

写在前面

速读卡片

一句话概括

GPT-5模型体系

模型家族与定位

核心贡献

方法

Safe-Completions：从硬拒绝到安全补全

幻觉（Hallucinations）评估与缓解

诌媚度（Sycophancy）评估

指令层次（Instruction Hierarchy）

思维链评估

实验结果

不允许内容评估

越狱鲁棒性

多语言性能

Preparedness Framework评估

1. 生物和化学风险（预防性定为High）

2. 网络安全

3. AI自改进

研究类别更新：Sandbagging（沙袋行为）

医疗保障措施

局限性

未来工作

启发

工程实践层面

研究设计层面

小结

相关文章

Accelerating Science with GPT-5: Early Science Acceleration Experiments论文阅读

Deliberative Alignment: Reasoning Enables Safer Language Models论文阅读

First-Person Fairness in Chatbots论文阅读

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence论文阅读