Language:Chinese VersionEnglish Version

Google 的 Gemini 2.5 Pro 已成为 SWE-bench Verified 上表现最佳的模型,这是目前最严格的真实世界软件工程基准测试。在跨实际 GitHub 仓库的自主错误修复方面得分超过 63%,它不仅超越了竞争模型,更在实践中改变了 AI 辅助软件开发的含义。

SWE-bench 实际测量的是什么

与测试独立编程难题的 HumanEval 或 MBPP 不同,SWE-bench 为模型提供了来自流行开源仓库的真实 GitHub 问题。模型必须阅读问题描述,导航实际代码库,识别根本原因,并生成能够通过仓库现有测试套件的补丁——无需人工协助。这很困难。它需要理解项目约定,追踪跨多个文件的执行路径,处理原始开发者考虑的边缘情况,以及编写与现有架构无缝集成的代码。

Gemini 2.5 Pro 正确解决了 63.2% 的这些任务。作为参考,GPT-4o 的得分约为 38%,而 Claude 3.7 Sonnet 约达到 50%。性能差距在各类任务中都很显著且一致。

性能背后的架构

Gemini 2.5 Pro 融合了 Google 在扩展”思考”方面的最新进展——这是在生成响应之前的额外计算阶段。模型分配额外的前向传递来规划方法、验证中间步骤并在检测到错误时回溯。这种思考机制对软件工程任务特别有价值,因为这些任务本质上是顺序性的且对错误敏感。推理链早期的一个错误假设会传播到不正确的补丁中。Gemini 2.5 Pro 在思考阶段自我纠错的能力显著减少了这些级联错误。

Google 还大力投资于代码特定的训练数据。Gemini 2.5 Pro 是在一个精心策划的高质量代码提交、代码审查和技术文档数据集上训练的——不仅是原始的 GitHub 数据转储,还包括经过仔细筛选的示例,展示了数十种语言和框架中的软件工程最佳实践。

真实世界测试:超越基准测试

多个工程团队已发布了对 Gemini 2.5 Pro 在生产代码库上的独立评估。对于具有全面测试的结构良好的代码库,该模型表现优异。给定一个失败的测试和相关的源文件,它通常能在 2-3 次尝试内识别正确的修复方案。对于具有隐式约定和稀疏测试的遗留代码库,成功率显著下降——这与初级人类开发者的入职体验相似。

一家中型金融科技公司的一个团队报告称,Gemini 2.5 Pro 成功解决了他们仓库中标记为”适合新手”的积压 Bug 的 70%——这些任务因开发人员带宽限制而无法分配。解决的问题从输入验证改进到金融计算中的逻辑错误,展示了该模型理解纯语法之外领域上下文的能力。

与替代方案比较

AI 编码工具的竞争格局十分激烈。Claude 3.7 Sonnet 仍被许多开发者青睐,因其强大的指令遵循能力和一致的代码风格。GPT-4o 在工具使用和代理流程的函数调用方面保持优势。Gemini 2.5 Pro 的优势在于处理复杂、多文件任务时的原始代码生成准确性。对于在 IDE 中使用 AI 编码助手的团队来说,实际差异比基准测试所暗示的要小——大多数 AI 辅助编程涉及自动完成和重构建议,在这三个方面前沿模型都表现出色。SWE-bench 的优势在完全自主的编码代理中变得有意义。

对工程团队的实用启示

在工程工作流程中,对 Gemini 2.5 Pro 的正确心理模型是一个非常有能力的异步工作的初级开发人员。您描述问题,提供相关上下文,然后审查输出——而不是实时结对编程。为了获得最佳效果,投资于您仓库的 AI 就绪度:全面的 README 文件、公共 API 的文档字符串,以及让模型能够验证自身输出的测试覆盖率。

趋势很明显:能够自主解决实际软件工程问题的 AI 模型正从研究好奇心转变为生产工具。今天围绕此能力构建工作流程的团队,将在模型持续改进到 2026 年及以后的过程中获得显著的生产力优势。

Priya Nair
Priya Nair📍 London, UK

AI Research Analyst specializing in large language models and foundation model governance. Oxford-trained, writes the weekly AI Policy Watch column and consults for EU AI Act compliance teams.

More by Priya Nair →

By Priya Nair

AI Research Analyst specializing in large language models and foundation model governance. Oxford-trained, writes the weekly AI Policy Watch column and consults for EU AI Act compliance teams.

31 thoughts on “Gemini 2.5 Pro:改写2026年编程基准测试的模型”
  1. N|听说Gemini 2.5 Pro可以改写编程基准测试,感觉这可能是2026年的大事件!

  2. N|N|我们公司在金融行业,数据处理能力一直是我们的痛点,期待改进。

  3. N|N|作为高级开发者,更关注底层优化和扩展性,希望这次升级能在这两点上有提升。

  4. N|N|感觉2.5 Pro的设计更贴近实际工作流程,这对我们来说是个好消息。

  5. N|N|N|我在大学做毕设,正愁测试环境配置,Gemini 2.5 Pro会不会简化这过程?

  6. N|N|N|我们团队刚接到一个复杂的项目,期待Gemini 2.5 Pro能帮助我们更快解决问题。

  7. N|N|N|在软件开发领域,基准测试只是一个参考,关键是解决问题的能力。

  8. N|N|N|感觉现在的基准测试越来越侧重于硬件性能,这是不是忽略了软件本身的优化?

  9. N|N|N|N|作为软件工程师,我对任何提升效率的工具都抱有极高的兴趣。

Leave a Reply

Your email address will not be published. Required fields are marked *

You missed