Meta 的 Llama 4 系列代表了自原始 Llama 发布以来开源 AI 最重大的飞跃。Scout 提供了一个拥有 170 亿参数的模型,具备 1000 万 token 的上下文窗口,而 Maverick 则采用了一个 4000 亿参数的混合专家(MoE)架构,Meta 已经从根本上提高了开源模型能够达到的水平,以及封闭式提供商为类似性能所能收取的价格。
Llama 4 有何不同
之前的开源模型在特定任务上表现出色,但难以在各方面匹敌前沿的封闭式模型。Llama 4 通过三种关键方式改变了这一局面:架构创新、训练数据规模和实际部署经济性。Scout 变种使用稀疏 MoE 架构,其中只有一部分参数会针对任何给定 token 激活。这意味着 170 亿个活跃参数能够发挥出远超其规模的能力,提供与更大规模密集模型相当的性能,同时在推理时需要显著更少的计算资源。
对于运行自托管推理的运营商来说,这直接转化为硬件成本的节省,并且规模越大节省越多。一个先前需要八块 H100 的工作负载,现在通常可以在两块 H100 上运行 Scout,同时保持输出质量,而这种质量以前只有通过更大规模的模型才能实现。
1000 万 Token 的上下文窗口
Scout 的 1000 万 token 上下文窗口不是营销数字,它反映了真实的架构投入。大多数前沿模型在实践中最多只能处理 20 万个 token。在 1000 万 token 的规模下,Scout 可以一次性摄入整个代码库、一年的公司文档或数百篇研究论文。这改变了您构建 RAG 系统的方式。您可以直接传递整个文档语料库,而不需要复杂的分块和检索流程。检索瓶颈从向量搜索准确性转移到了原始吞吐量和成本管理——这是一个通常更容易解决的问题。
早期基准测试显示,Scout 在整个上下文长度范围内保持强大的召回率,避免了困扰许多长上下文模型的”中间丢失”问题。在 RULER(一个长上下文评估基准)上测试的独立研究人员报告称,Scout 的得分在全球排名前三,无论是开源还是闭源模型。
Maverick:4000 亿 MoE 强大模型
Maverick 的 4000 亿参数 MoE 架构在前向传播中激活约 170 亿个参数。您可以将其想象为拥有 4000 亿参数的知识,被压缩到一个路由系统中,为每个 token 选择最相关的专家。在 MMLU(大规模多任务语言理解)测试中,Maverick 达到了 89.3% 的准确率,在几个任务类别中超过了 GPT-4o 和 Claude 3.5 Sonnet。在 HumanEval 编码基准测试中,它得分为 82.7%,接近前沿编码专家的水平。
更值得注意的是,Maverick 在多步推理任务上表现出色,而小型模型通常在这些任务上表现不佳。该模型能够在长上下文中连贯地链接推理步骤,这使其成为企业级智能应用的有力竞争者,因为在这些应用中,跨多个连续步骤的可靠性对业务成果至关重要。
部署经济性
Llama 4 最被低估的方面是其成本结构。在 H100 集群上运行 Maverick 的每令牌成本显著低于向封闭提供商进行 comparable API 调用的成本——Meta 估计,对于典型的推理工作负载,规模化部署时可实现 3-5 倍的成本降低。对于每天处理数百万次 API 调用的组织来说,这意味着每年可节省数十万美元。结合本地部署的数据隐私优势,Llama 4 为那些目前受困于封闭 API 依赖的企业提供了极具吸引力的选择。
小型组织也能从中受益。Groq、Together AI 和 Fireworks 等提供商已迅速集成 Llama 4,提供托管推理服务,其价格比 OpenAI 和 Anthropic 的 comparable 能力层级低 60-80%。封闭提供商最近的价格调整已经显示出这种竞争压力。
开源生态系统效应
Llama 4 的发布引发了一系列下游活动,这是封闭模型发布无法产生的。在几天内,针对特定领域(医疗、法律、编程、多语言)的社区微调版本开始出现。针对消费级硬件优化的量化变体也相继推出。集成库不断更新。开源 AI 生态系统将重要的 Llama 发布视为平台发布,而不仅仅是新产品。这种生态系统飞轮是 Meta 的结构性优势,是任何封闭竞争对手都难以轻易复制的。
实用建议
对于评估 Llama 4 的开发者:从 Scout 开始,用于长文档处理和 RAG 应用——仅 1000 万上下文窗口这一特性就足以让许多用例转向使用。评估 Maverick 用于复杂推理、代码生成和面向客户的应用,在这些应用中,输出质量至关重要。在生产工作负载迁移前,针对您的特定任务运行自己的基准测试套件。通用基准测试与专业领域性能相关,但不能完美预测。
Meta 的发布节奏表明 Llama 5 已经在训练中。构建您的 AI 基础设施时,应将模型无关性作为一等要求——随着格局变化,能够更换模型的能力正在成为核心工程能力,而不再是可有可无的特性。

N|这Meta Llama 4 Scout和Maverick发布得太及时了,我们公司刚好在研究AI模型,这能大大加速我们的进度。
N|说实话,我对Llama 4 Scout和Maverick的发布感到惊喜,作为一名初级工程师,感觉这对我技能提升有很大帮助。
N|我一直在用TensorFlow,但看到Meta的Llama 4 Scout和Maverick,感觉这个开源AI项目前景广阔。
N|作为产品经理,我认为这次Meta的发布是非常雄心勃勃的,期待它能为行业带来更多可能性。
N|我是一名学生,对Llama 4 Scout和Maverick很感兴趣,想学习一下它的技术原理。
N|感觉这次Meta Llama 4 Scout和Maverick的发布是开源AI领域的一个重要里程碑。
N|我是个技术爱好者,对于Meta的这次发布,我非常期待能参与到这个项目中来。
N|其实我对Llama 4 Scout和Maverick的某些功能有些质疑,比如它的可扩展性。
N|听说Meta Llama 4 Scout和Maverick在处理大量数据时表现很好,我们公司正准备尝试使用。
N|我对Meta Llama 4 Scout和Maverick的算法很感兴趣,想了解更多细节。
N|我觉得这次Meta的发布很有意义,对AI领域的发展贡献很大。
N|作为一个开源项目的支持者,我非常期待Meta Llama 4 Scout和Maverick的后续进展。
N|我对Llama 4 Scout和Maverick的性能非常期待,希望它能带来更快的处理速度。
N|我有些担心Llama 4 Scout和Maverick的维护问题,开源项目有时候会遇到这样的困难。
N|我是一名高级开发者,对Meta Llama 4 Scout和Maverick的性能优化很感兴趣。
N|感觉这次Meta的发布是在向业界展示他们强大的技术实力。
N|我对Llama 4 Scout和Maverick的生态建设很感兴趣,希望它能有更多的合作伙伴。
N|我认为Meta Llama 4 Scout和Maverick的发布,将推动AI领域的开源发展。
N|我很好奇,Llama 4 Scout和Maverick相比其他开源AI模型有哪些优势?
N|我希望Meta Llama 4 Scout和Maverick的文档能更完善一些,方便我们更好地使用。
N|我对Meta Llama 4 Scout和Maverick的社区支持很感兴趣,希望它能有活跃的开发者社区。
N|听说Llama 4 Scout和Maverick在处理实时数据时表现不错,我们公司打算尝试用它来提升数据处理能力。
N|感觉这次Meta的发布,对于AI初学者来说是个很好的学习机会。
N|我对Llama 4 Scout和Maverick的跨平台能力很感兴趣,希望它能在不同的操作系统上运行。
N|我很好奇,Meta Llama 4 Scout和Maverick在深度学习领域的应用场景有哪些?
N|我觉得Meta Llama 4 Scout和Maverick的发布,将会推动AI技术的发展。
N|我对Llama 4 Scout和Maverick的未来发展充满期待,希望它能不断进步。
N|我关注到Llama 4 Scout和Maverick在开源社区的影响,希望它能成为行业标准。
N|总的来说,我对Meta Llama 4 Scout和Maverick的发布感到兴奋,期待它能带来更多创新。