OpenAI Blog2025年8月7日

From hard refusals to safe-completions: toward output-centric safety training

Discover how OpenAI's new safe-completions approach in GPT-5 improves both safety and helpfulness in AI responses—moving beyond hard refusals to nuanced, output-centric safety training for handling dual-use prompts.

阅读原文

收藏邮箱

AI 分析

标题洞察

这个标题的传播点在于它把一个抽象的技术议题，浓缩成了“从硬拒绝到安全完成”的转变，天然带有方法升级和范式变化的叙事感。适合改写成“AI安全策略变了”“为什么模型不再只会说不”等更面向大众的表达，也适合借势做“安全与可用性如何同时成立”的观点型内容。由于原题偏技术论文风格，中文创作时可以突出“AI回答策略升级”这一结果，而不必过度堆砌术语。

核心观点

文章的核心是：面对双用途提示词，安全训练不应只靠直接拒绝，而要转向以输出结果为中心的安全控制，让模型在尽量有帮助的同时保持安全边界。它隐含的判断是，过去“硬拒绝”虽然简单，但会损失可用性，也不一定是最优解；更细腻的安全策略可能更符合真实使用场景。需要注意的是，来源摘要只说明了方向和目标，具体效果、适用范围和评估细节，不能仅凭标题直接下结论。

创作启发

可以写成一篇解释型短文：为什么“会拒绝”的AI，不一定是“更安全”的AI，重点讲清“安全”和“有用”之间的张力。也适合做视频选题，比如用几个生活化场景类比“硬拒绝”与“安全完成”的差别，帮助观众理解AI回答策略的变化。若做播客或社媒帖，可以进一步延展到“AI安全的下一阶段是不是从拦截问题，转向优化输出”的讨论，但要明确这是基于文章主题的延伸判断，不是原文已给出的完整结论。