多年来,大型语言模型一直处于一个尴尬的中间地带——令人印象深刻地流利,却又令人沮丧地健忘,能够给出惊艳的一次性答案,却无法满足真实工作所需的深度、多步骤推理能力。OpenAI 发布了 GPT-5.4,它改变了这一局面。凭借百万令牌的上下文窗口和自主多步骤工作流执行能力,GPT-5.4 在 OSWorld-V 基准测试中获得了 75% 的分数——首次超过 72.4% 的人类基线。这不仅仅是一个更大的模型;它是一个根本不同类别的工具。作为数字同事的 AI 时代已经到来。
百万令牌的实际意义
上下文窗口一直是语言模型能力的无形天花板。在 8,000 个令牌时,你可以粘贴几页内容。在 128,000 个令牌时,可以是一短篇小说。而在一百万个令牌时,游戏规则完全改变。你可以给 GPT-5.4 喂入整个代码库——不是摘录,不是摘要,而是包含测试、文档、配置文件和提交历史的完整仓库。法律团队可以上传整个合同组合。研究小组可以同时加载数十篇学术论文,并要求模型综合所有论文的发现。
实际影响令人震惊。开发人员不再需要仔细筛选提示中应包含哪些文件。产品经理可以提供完整的规范文档,同时附上用户研究记录,并要求进行差距分析。当上下文窗口足够大,能够容纳所有相关信息时,提示工程——即决定包含什么上下文、排除什么上下文——的认知开销会大幅减少。
从聊天工具到自主代理
尽管上下文窗口的扩展令人印象深刻,但它甚至可能不是最重要的功能。GPT-5.4 引入了 OpenAI 所谓的代理工作流执行——能够将复杂任务分解为子步骤、按顺序执行、评估中间结果并在无需人工干预的情况下调整方向的能力。这不是早期模型的简单函数调用。GPT-5.4 可以编排多工具工作流:查询数据库、分析结果、起草报告、对照风格指南检查、发布到内容管理系统——所有这些都来自一个高级指令。
OSWorld-V 基准测试分数之所以重要,正是因为它衡量了这种现实世界任务完成能力。75% 的分数意味着,GPT-5.4 在处理四分之三的真实计算机使用场景(文件管理、网页导航、应用程序工作流)时,比普通人类参与者更可靠。对于软件团队来说,这意味着一个 AI 结对编程助手,它不仅提供代码片段,还能运行测试套件、解释失败原因、提出修复方案,并迭代直到测试通过。
竞争格局转变
这一公告并非在真空中发生。Anthropic 一直在通过其 Claude 模型推动上下文边界和工具使用的进步。Google Gemini 也提供百万 token 的上下文窗口,尽管性能特征不同。Meta 则通过开源的 Llama 模型持续普及化访问。但 GPT-5.4 将庞大的上下文、代理能力和基准领先的性能融为一体,创造了竞争对手现在必须匹配的新标杆。
对于评估 AI 平台的企业而言,决策矩阵变得更加复杂。原始语言能力的重要性已不如以往——大多数前沿模型都能写出合格的文章。现在的差异化因素是多步骤执行的可靠性、处理庞大上下文的准确性、规模化时的每 token 成本,以及与现有工具链的集成深度。GPT-5.4 似乎在前两个维度上领先,尽管定价和集成问题仍有待解答。
对开发者和团队的影响
如果 GPT-5.4 能兑现其承诺,开发工作流程将围绕它重组。代码审查变成与已读取存储库中所有文件的代理的对话。新团队成员的入职可以通过已吸收整个项目历史、文档和架构决策记录的 AI 来增强。调试从手动追踪执行路径转变为向代理询问——该代理在上下文中拥有完整的代码库——以识别根本原因。
但这并非一个替代的故事。75% 的 OSWorld-V 分数意味着四分之一的任务仍然失败。该模型的幻觉比其前身少,但仍然会产生幻觉。在高风险环境中——生产部署、金融交易、医疗系统——在没有人工监督的情况下自主执行仍然是不负责任的。最高效的团队将是那些设计适当检查点的人机工作流程的团队,将模型视为能力强大但偶尔不可靠的初级同事。
临界点问题
GPT-5.4 是代理 AI 的临界点吗?诚实的答案是:可能还不是,但它比大多数人预期的要快得多。该技术在结构化计算机任务上已超过人类基线。上下文窗口消除了输入大小的实际限制。剩余的差距——可靠性、模糊情况下的判断能力、真正的理解与复杂的模式匹配——正在随着每一代的发展而缩小。
GPT-5.4 明确确立的一点是,这一轨迹已经清晰可见。AI 系统将成为真正的数字同事——不是比喻意义上的,而是实际操作层面上的。现在就开始调整其工作流程、治理结构和技能发展计划的组织,将比那些等待完美的组织拥有显著优势。百万令牌的上下文窗口不仅是一个技术里程碑,更是邀请我们重新思考知识工作如何完成的契机。
