Meta Llama 4 Scout与Maverick：开源AI迄今为止最雄心勃勃的发布

BySophie Laurent

Apr 5, 2026 #ai, #architecture, #llama, #moe, #open-source

Meta 的 Llama 4 系列代表了自原始 Llama 发布以来开源 AI 最重大的飞跃。Scout 提供了一个拥有 170 亿参数的模型，具备 1000 万 token 的上下文窗口，而 Maverick 则采用了一个 4000 亿参数的混合专家（MoE）架构，Meta 已经从根本上提高了开源模型能够达到的水平，以及封闭式提供商为类似性能所能收取的价格。

Llama 4 有何不同

之前的开源模型在特定任务上表现出色，但难以在各方面匹敌前沿的封闭式模型。Llama 4 通过三种关键方式改变了这一局面：架构创新、训练数据规模和实际部署经济性。Scout 变种使用稀疏 MoE 架构，其中只有一部分参数会针对任何给定 token 激活。这意味着 170 亿个活跃参数能够发挥出远超其规模的能力，提供与更大规模密集模型相当的性能，同时在推理时需要显著更少的计算资源。

对于运行自托管推理的运营商来说，这直接转化为硬件成本的节省，并且规模越大节省越多。一个先前需要八块 H100 的工作负载，现在通常可以在两块 H100 上运行 Scout，同时保持输出质量，而这种质量以前只有通过更大规模的模型才能实现。

1000 万 Token 的上下文窗口

Scout 的 1000 万 token 上下文窗口不是营销数字，它反映了真实的架构投入。大多数前沿模型在实践中最多只能处理 20 万个 token。在 1000 万 token 的规模下，Scout 可以一次性摄入整个代码库、一年的公司文档或数百篇研究论文。这改变了您构建 RAG 系统的方式。您可以直接传递整个文档语料库，而不需要复杂的分块和检索流程。检索瓶颈从向量搜索准确性转移到了原始吞吐量和成本管理——这是一个通常更容易解决的问题。

早期基准测试显示，Scout 在整个上下文长度范围内保持强大的召回率，避免了困扰许多长上下文模型的”中间丢失”问题。在 RULER（一个长上下文评估基准）上测试的独立研究人员报告称，Scout 的得分在全球排名前三，无论是开源还是闭源模型。

Maverick：4000 亿 MoE 强大模型

Maverick 的 4000 亿参数 MoE 架构在前向传播中激活约 170 亿个参数。您可以将其想象为拥有 4000 亿参数的知识，被压缩到一个路由系统中，为每个 token 选择最相关的专家。在 MMLU（大规模多任务语言理解）测试中，Maverick 达到了 89.3% 的准确率，在几个任务类别中超过了 GPT-4o 和 Claude 3.5 Sonnet。在 HumanEval 编码基准测试中，它得分为 82.7%，接近前沿编码专家的水平。

更值得注意的是，Maverick 在多步推理任务上表现出色，而小型模型通常在这些任务上表现不佳。该模型能够在长上下文中连贯地链接推理步骤，这使其成为企业级智能应用的有力竞争者，因为在这些应用中，跨多个连续步骤的可靠性对业务成果至关重要。

部署经济性

Llama 4 最被低估的方面是其成本结构。在 H100 集群上运行 Maverick 的每令牌成本显著低于向封闭提供商进行 comparable API 调用的成本——Meta 估计，对于典型的推理工作负载，规模化部署时可实现 3-5 倍的成本降低。对于每天处理数百万次 API 调用的组织来说，这意味着每年可节省数十万美元。结合本地部署的数据隐私优势，Llama 4 为那些目前受困于封闭 API 依赖的企业提供了极具吸引力的选择。

小型组织也能从中受益。Groq、Together AI 和 Fireworks 等提供商已迅速集成 Llama 4，提供托管推理服务，其价格比 OpenAI 和 Anthropic 的 comparable 能力层级低 60-80%。封闭提供商最近的价格调整已经显示出这种竞争压力。

开源生态系统效应

Llama 4 的发布引发了一系列下游活动，这是封闭模型发布无法产生的。在几天内，针对特定领域（医疗、法律、编程、多语言）的社区微调版本开始出现。针对消费级硬件优化的量化变体也相继推出。集成库不断更新。开源 AI 生态系统将重要的 Llama 发布视为平台发布，而不仅仅是新产品。这种生态系统飞轮是 Meta 的结构性优势，是任何封闭竞争对手都难以轻易复制的。

实用建议

对于评估 Llama 4 的开发者：从 Scout 开始，用于长文档处理和 RAG 应用——仅 1000 万上下文窗口这一特性就足以让许多用例转向使用。评估 Maverick 用于复杂推理、代码生成和面向客户的应用，在这些应用中，输出质量至关重要。在生产工作负载迁移前，针对您的特定任务运行自己的基准测试套件。通用基准测试与专业领域性能相关，但不能完美预测。

Meta 的发布节奏表明 Llama 5 已经在训练中。构建您的 AI 基础设施时，应将模型无关性作为一等要求——随着格局变化，能够更换模型的能力正在成为核心工程能力，而不再是可有可无的特性。

Sophie Laurent📍 Paris, France

AI Ethics Correspondent and philosophy-of-mind graduate, covering bias audits, AI safety research, and the human stories behind algorithmic systems. Regular contributor to Le Monde Numérique.

More by Sophie Laurent →

By Sophie Laurent