OpenAI Blog2026年2月23日

Why we no longer evaluate SWE-bench Verified

SWE-bench Verified is increasingly contaminated and mismeasures frontier coding progress. Our analysis shows flawed tests and training leakage. We recommend SWE-bench Pro.

阅读原文

收藏邮箱

AI 分析

标题洞察

这个标题的传播点很强：它不是泛泛讨论模型评测，而是直接宣布“我们不再评估某个主流基准”，天然带有行业反转和权威表态感。适合改写成“为什么顶级团队不再看某个榜单了”“某个热门基准为何失效了”这类对比式标题，能迅速吸引做 AI、编程和测评话题的读者。若借势创作，标题里保留“停止使用/不再依赖/为什么失效”这类动作词，会更有冲突感。

核心观点

文章的核心判断是：SWE-bench Verified 这类基准正在被污染，已经不能可靠衡量前沿代码能力的真实进展。摘要里明确提到两个问题：测试本身存在缺陷，以及训练数据泄漏会让结果失真，因此“分数更高”不一定代表“能力更强”。基于这一判断，文章转向推荐 SWE-bench Pro，说明作者想强调“评测体系要比单次榜单更重要”；但具体新基准如何优于旧基准，摘要没有展开，创作时不宜过度细化。

创作启发

可以做成“AI 评测失灵了，为什么榜单越来越不可信”的短文，拆解“污染、泄漏、刷分”这三个概念，帮助普通读者理解基准失真的逻辑。也可以做成视频选题：用“为什么顶级团队开始抛弃某个 benchmark”作为开场，再延伸到 AI 领域常见的评测幻觉。若做播客或长文，可以进一步讨论“一个评测体系从有效到失效的过程”，但需要注意：关于 SWE-bench Pro 的具体机制，若没有原文细节支持，应明确只做趋势性讨论，不做过度推断。