OpenAI Blog2023年5月31日

Improving mathematical reasoning with process supervision

We've trained a model to achieve a new state-of-the-art in mathematical problem solving by rewarding each correct step of reasoning (“process supervision”) instead of simply rewarding the correct final answer (“outcome supervision”). In addition to boosting performance relative to outcome supervision, process supervision also has an important alignment benefit: it directly trains the model to produce a chain-of-thought that is endorsed by humans.

阅读原文

收藏邮箱

AI 分析

标题洞察

这个标题的传播价值在于，它把一个抽象的技术问题“数学推理”与一个很有争议的训练方法“过程监督”直接绑定，天然带有“方法升级”“效果突破”的叙事张力。适合改写成“为什么只看最终答案不够”“AI学会推理，关键不在结果而在步骤”这类更面向大众的标题。若借势传播，可以突出“新SOTA”“训练方式改变”这两个信息点，但不要超出原文去宣称它已经解决了所有推理问题。

核心观点

文章最值得提炼的观点是：在数学问题求解中，奖励每一步正确推理，比只奖励最终答案更有效。这里的冲突点在于，“结果对了”不等于“过程也可靠”，而过程监督试图把模型训练成不仅会答题，还会给出更符合人类认可的思考链。根据摘要可确认的结论是，它在性能上优于 outcome supervision，并且有对齐上的额外收益；但具体提升幅度、适用范围和局限，摘要未提供，不能进一步外推。

创作启发

可以写成“AI训练范式之争：只看答案，还是也看过程”的短文，适合面向普通读者解释过程监督的意义。也可以做成视频脚本，用“学生做题老师只看对错 vs 逐步批改”作类比，帮助观众快速理解为什么步骤奖励更重要。若做社媒帖，可以延展到“教育、写作、编程、客服”等场景，讨论哪些任务也适合从“结果评估”转向“过程评估”，但需明确这是基于文章观点的类比推演，不是原文直接结论。