OpenAI Blog
Why we no longer evaluate SWE-bench Verified
SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.
SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.
这个标题的传播点很强:它不是泛泛讨论模型评测,而是直接宣布“我们不再评估某个主流基准”,天然带有行业反转和权威表态感。适合改写成“为什么顶级团队不再看某个榜单了”“某个热门基准为何失效了”这类对比式标题,能迅速吸引做 AI、编程和测评话题的读者。若借势创作,标题里保留“停止使用/不再依赖/为什么失效”这类动作词,会更有冲突感。
文章的核心判断是:SWE-bench Verified 这类基准正在被污染,已经不能可靠衡量前沿代码能力的真实进展。摘要里明确提到两个问题:测试本身存在缺陷,以及训练数据泄漏会让结果失真,因此“分数更高”不一定代表“能力更强”。基于这一判断,文章转向推荐 SWE-bench Pro,说明作者想强调“评测体系要比单次榜单更重要”;但具体新基准如何优于旧基准,摘要没有展开,创作时不宜过度细化。
可以做成“AI 评测失灵了,为什么榜单越来越不可信”的短文,拆解“污染、泄漏、刷分”这三个概念,帮助普通读者理解基准失真的逻辑。也可以做成视频选题:用“为什么顶级团队开始抛弃某个 benchmark”作为开场,再延伸到 AI 领域常见的评测幻觉。若做播客或长文,可以进一步讨论“一个评测体系从有效到失效的过程”,但需要注意:关于 SWE-bench Pro 的具体机制,若没有原文细节支持,应明确只做趋势性讨论,不做过度推断。