OpenAI Blog2025年9月25日

Measuring the performance of our models on real-world tasks

OpenAI introduces GDPval, a new evaluation that measures model performance on real-world economically valuable tasks across 44 occupations.

阅读原文

收藏邮箱

AI 分析

标题洞察

这个标题的吸引力在于它把“模型性能”从抽象榜单拉回到“真实世界任务”，更容易让读者理解为什么这件事和自己有关。它还点出了“经济价值”和“44种职业”，天然具备职场、产业和AI应用三个传播入口。适合改写成“AI到底能不能干活”“模型在真实岗位上的表现如何”这类更口语、更贴近读者痛点的表达。

核心观点

这篇文章最值得提炼的观点是：评估模型不能只看实验室指标，更要看它在真实、可产生经济价值的任务中的表现。摘要显示，OpenAI推出了GDPval，说明它试图用更贴近职业场景的方式衡量模型能力，而不是只停留在通用基准测试。由于原文摘要信息有限，具体评分方法、结论强弱和不同职业的差异，还需要查看正文才能进一步判断。

创作启发

可以做成“AI评价体系升级了什么”的短文，解释为什么从刷题式测试转向真实任务测试会影响行业判断。也可以做成视频或播客选题，围绕“哪些职业最先被AI真实替代或辅助”展开，但需要注意不要超出原文已提供的44职业范围去做具体结论。社媒帖则适合用“模型会考试不等于会工作”作为钩子，再引出真实任务评估的意义。