返回文章列表
OpenAI Blog

Fine-tuning GPT-2 from human preferences

We’ve fine-tuned the 774M parameter GPT-2 language model using human feedback for various tasks, successfully matching the preferences of the external human labelers, though those preferences did not always match our own. Specifically, for summarization tasks the labelers preferred sentences copied wholesale from the input (we’d only asked them to ensure accuracy), so our models learned to copy. Summarization required 60k human labels; simpler tasks which continue text in various styles required only 5k. Our motivation is to move safety techniques closer to the general task of “machines talking to humans,” which we believe is key to extracting information about human values.

收藏邮箱

AI 分析

标题洞察

这个标题的吸引力在于它把“GPT-2 微调”和“human preferences(人类偏好)”两个高关注词放在一起,天然具备技术前沿感和争议感。它适合改写成“让模型学会讨人喜欢,真的更安全吗?”或“AI 为什么会学会复制答案?”这类更贴近大众理解的表达。标题本身也暗含一个值得追问的冲突:模型是在优化任务效果,还是在迎合标注者偏好。

核心观点

文章最值得提炼的观点是:用人类反馈微调大模型,能让模型更贴近外部标注者的偏好,但这种偏好不一定等于研究者预期的“正确”方向。摘要里最有意思的发现是,摘要任务中标注者偏好直接从输入里复制的句子,因为他们被要求保证准确性,结果模型学会了“复制”。这说明人类反馈并不是天然可靠的目标函数,设计任务时的指令会直接塑造模型学到的行为。另一个可提炼的判断是:简单任务只需要较少人类标签,而更复杂的摘要任务需要更多标签,体现了“对齐”成本的差异。

创作启发

可以写成一篇短文,主题是“为什么 AI 会学会偷懒式复制:人类反馈的副作用”,用这个案例讲清楚“标注目标”如何决定模型行为。也可以做成视频或播客选题,讨论“让机器学会讨好人类,究竟是在变安全,还是在变会迎合?”这类争议非常适合引发评论。社媒帖则可以拆成两个反差点:一是“人类偏好不等于研究者偏好”,二是“摘要任务里,模型学会复制反而更受欢迎”,用来引导读者思考 AI 对齐的边界。