美团LongCat-2.0:1M-Token开源AI模型重塑行业格局

不久前,国内头部外卖科技企业正式对外发布了LongCat-2.0大模型,揭开了此前以匿名身份Owl Alpha在全球第三方AI模型调用平台上连续两个月占据头部榜单的神秘面纱。该模型作为背后的核心算力引擎,在正式公布前已经凭借出色的性能引发了行业广泛关注。
LongCat-2.0旨在打破闭源巨头在自主软件工程领域的垄断格局,其核心是1.6万亿参数的混合专家模型架构,首次将原生支持100万token上下文窗口的大模型推向公共领域,并采用了对企业友好的MIT开源许可协议,具备商业化落地的灵活性。
在商业化层面,该模型推出了极具竞争力的定价策略:所有上下文缓存命中的请求完全免费,同时搭配限时的“Token Pack”闪购模式。对于缓存未命中的请求,平台提供按量付费的API服务,标准定价为每百万输入/输出token分别收取0.75美元和2.95美元。当前的限时促销活动进一步下调了价格,输入token降至每百万0.30美元,输出token降至每百万1.20美元,在全球主流高性能模型中处于较低价位。
以下是当前主流AI模型的定价对比:
| 模型 | 输入($/1M) | 输出($/1M) | 总成本($/1M) | 提供方 |
|---|---|---|---|---|
| MiMo-V2.5 Flash | $0.10 | $0.30 | $0.40 | 小米 |
| deepseek-v4-flash | $0.14 | $0.28 | $0.42 | DeepSeek |
| deepseek-v4-pro | $0.435 | $0.87 | $1.305 | DeepSeek |
| MiniMax-M3 | $0.30 | $1.20 | $1.50 | MiniMax |
| LongCat-2.0 — 限时促销 | $0.30 | $1.20 | $1.50 | LongCat |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 | |
| Qwen3.7-Plus | $0.40 | $1.60 | $2.00 | 阿里云 |
| MiMo-V2.5 | $0.40 | $2.00 | $2.40 | 小米 |
| LongCat-2.0 — 标准定价 | $0.75 | $2.95 | $3.70 | LongCat |
| Grok 4.3 (低上下文) | $1.25 | $2.50 | $3.75 | xAI |
| MiMo-V2.5 Pro (≤256K) | $1.00 | $3.00 | $4.00 | 小米 |
| Kimi-K2.6 | $0.95 | $4.00 | $4.95 | Moonshot AI |
| GLM-5.2 | $1.40 | $4.40 | $5.80 | Z.ai |
| GPT-5.6 Luna | $1.00 | $6.00 | $7.00 | OpenAI |
| Grok 4.3 (高上下文) | $2.50 | $5.00 | $7.50 | xAI |
| MiMo-V2.5 Pro (>256K) | $2.00 | $6.00 | $8.00 | 小米 |
| Qwen3.7-Max | $2.50 | $7.50 | $10.00 | 阿里云 |
| Gemini 3.5 Flash | $1.50 | $9.00 | $10.50 | |
| Gemini 3.1 Pro Preview (≤200K) | $2.00 | $12.00 | $14.00 | |
| GPT-5.6 Terra | $2.50 | $15.00 | $17.50 | OpenAI |
| GPT-5.4 | $2.50 | $15.00 | $17.50 | OpenAI |
| Gemini 3.1 Pro Preview (>200K) | $4.00 | $18.00 | $22.00 | |
| Claude Opus 4.8 | $5.00 | $25.00 | $30.00 | Anthropic |
| GPT-5.5 | $5.00 | $30.00 | $35.00 | OpenAI |
| GPT-5.5 Instant (最新聊天模型) | $5.00 | $30.00 | $35.00 | OpenAI |
| Sakana Fugu Ultra (≤272K) | $5.00 | $30.00 | $35.00 | Sakana AI |
| GPT-5.6 Sol | $5.00 | $30.00 | $35.00 | OpenAI |
| Claude Fable 5 / Claude Mythos 5 | $10.00 | $50.00 | $60.00 | Anthropic |
此次发布的行业标志性意义在于,LongCat-2.0实现了完全的算力自主:这款超大规模模型完全基于超过5万片国产专用集成电路集群训练而成,证明了前沿AI模型可以无需依赖此前全球主流的美国英伟达GPU即可实现规模化训练,这一突破标志着全球AI基础设施的结构性变革。
如果国内科技企业能够持续基于自研ASIC迭代万亿参数级大模型架构,将对英伟达在AI训练硬件领域的主导地位构成直接挑战。而这一技术转折恰逢美国政府施压顶级美国实验室限制最新AI模型的对外访问:此前OpenAI应美国政府要求限制了GPT-5.6系列模型的公开访问权限,Anthropic也被勒令下线了最新的Claude Fable 5和Mythos 5模型。与此同时,越来越多的技术专家、活动人士和行业从业者指出,美国的这些限制性监管举措反而适得其反,通过封锁西方闭源模型并推高API使用成本,为全球开发者寻求高性价比的开源替代方案留下了广阔空间,LongCat-2.0正是这类替代方案中的佼佼者。
在正式公布前,以Owl Alpha身份运行的LongCat-2.0已经展现出惊人的用户规模:在第三方平台上,该模型每月处理约10.1万亿token,日均处理量达到5590亿,环比增长242%,迅速跻身平台全球前三。在企业公开该模型后,其已经在Hermes Agent工作区登顶榜首,在Claude Code部署中排名第二,在国际OpenClaw环境中位列第三。
技术架构:百万token上下文的稀疏设计
LongCat-2.0的核心是经过深度优化的混合专家模型架构,总参数量达到1.6万亿,但每处理一个token仅激活平均480亿的参数,根据查询的结构复杂度不同,激活参数的范围在330亿到560亿之间。这种设计采用了“零计算专家”框架,让常规执行流程通过轻量级子网络完成,彻底消除了超密集模型常见的闲置计算开销。
为了实现稳定的100万token上下文窗口同时避免硬件瓶颈,团队推出了LongCat稀疏注意力机制,作为DeepSeek稀疏注意力的迭代版本,该机制从三个维度解决了细粒度稀疏机制常见的二次计算成本和内存碎片化问题:
- 流感知索引:该系统通过结合硬件对齐的连续数据读取和动态随机选择,重构了token选择流程。将碎片化的内存访问转化为可预测的顺序块,实现了高带宽内存的合并利用,有效提升了内存带宽利用率。
- 跨层索引:基于相邻隐藏层注意力显著性高度稳定的实际特性,该机制分摊了计算成本。一次索引计算即可指导后续多层推理,这一能力在训练阶段通过跨层蒸馏得到了强化。
- 层级索引:采用粗到细的两阶段评分机制,索引器先通过快速近似块级召回筛选候选样本,再仅对剩余群体执行细粒度的token选择,进一步优化了计算效率。
此外,团队还集成了来自轻量化模型线的N-gram嵌入模块,在与混合专家模型布局完全正交的稀疏维度上扩展参数分配,为5-gram token组合框架新增了1350亿参数。这一设计将核心嵌入空间扩展了约100倍,让模型能够捕捉更密集的本地token关系,同时通过减少内存I/O瓶颈加速了大批次推理操作。
产品性能:后训练框架与基准测试结果
与专注于流畅对话交互的通用大模型不同,LongCat-2.0明确聚焦于多步骤工程任务、工具集成和自动化代码库操作,也就是智能代理相关任务。
在标准化基准测试中,LongCat-2.0在SWE-bench Pro上取得了59.5的成绩,超过了GPT-5.5的58.6分。同时,该模型在智能代理任务上表现突出:在Terminal-Bench 2.1上取得70.8分,在SWE-bench Multilingual上取得77.3分,在通用企业工作流模拟器FORTE上取得73.2分。
这种精准的任务表现得益于名为“多专家混合教师优化”的结构化后训练层。与将人类反馈整合到单一奖励函数的传统方式不同,该架构将后训练优化拆分为三个独立的专业专家集群:
- 代理专家:专门针对结构化执行进行微调,擅长精确调用工具、解析多轮API参数和自我修正循环机制,避免执行停滞。
- 推理专家:独立优化以提升多跳逻辑、复杂思维链工程、数学计算和高端STEM问题解决能力。
- 交互专家:专注于人类对齐、指令遵循细节、事实 grounding 以抑制幻觉,以及在不降低模型整体实用性的前提下维护严格的安全护栏。
通过在后训练阶段分离这些优化方向,LongCat-2.0避免了功能退化。动态门控路由机制在运行时无缝融合这些专业行为,让最终模型能够同时协调深度推理、稳定工具执行和安全用户交互。
尽管LongCat-2.0在通用代理基准测试如FORTE和BrowseComp中略逊于Claude Opus 4.8等顶级前沿系统,但在软件工程领域的表现却远超预期。这款开源架构的独特之处在于其对自主开发的高度聚焦,甚至在严格的软件工程基准测试SWE-bench Pro上超过了OpenAI的专有模型GPT-5.5,证明其在复杂编码任务上具备出色的竞争力,同时拥有更轻量化的计算 footprint。
商业化模式:按量付费与闪购Token Pack
企业的商业化策略推出了差异化的网络访问模式,分为传统实时API计费和结构化“Token Pack”两种方案。
对于传统企业集成场景,平台提供标准充值账户,根据token输入和生成量实时扣除运营成本。
为了适配自主开发代理常见的不可预测计算突发需求,团队推出了结构化的Token Pack框架。这类套餐为固定的一次性容量配额,有效期严格为30天,可直接叠加在企业已有的基础API账户上。
为了管理专用集成电路集群的网络负载,平台每天分四次限量发售这类高容量套餐,分别在北京时间10:00、16:00、21:00和23:00,先到先得。该框架最具吸引力的经济亮点在于,上下文缓存命中的请求完全免费。
在大规模代理环境中,代码助手需要在长会话中反复读取、引用和修改同一百万级token的代码库,传统架构会对重复的输入上下文收取全额费用,增加开发者成本。而在该平台的基础设施中,只有缓存未命中的输入和最终token生成才会消耗套餐配额,这一架构彻底改变了大规模代理软件开发的运营成本结构,让开发者能够在不增加复合成本的前提下进行深度迭代的上下文探索。
开源许可:企业级的结构自由
通过将LongCat-2.0仓库注册在MIT开源许可下,开发团队为该架构赋予了最大的法律灵活性,方便企业集成使用。
与GPL等copyleft范式不同——后者要求开发者将基于该代码的衍生框架或内部软件开源——MIT许可几乎提供了无限制的自由。对于企业工程团队来说,这一法律标准意味着LongCat-2.0可以被深度修改、编译并硬编码到闭源商业应用、专有开发工具和内部自动化后端中。
企业可以分叉该仓库,针对私有数据库优化内部稀疏注意力机制,并将 resulting软件栈销售给终端用户,无需披露其专有知识产权或结构增强内容。
企业转型:从外卖超级应用到AI强国
该企业成立于2010年3月,最初是一家团购风格的每日交易网站,随后迅速发展为中国领先的“超级应用”之一。2015年与大众点评合并后,这家北京科技巨头巩固了在国内城市配送领域的主导市场份额,整合了本地消费者评论、即时零售、酒店预订和食品配送服务。作为香港联合交易所的上市公司,其拥有超过7.7亿年度交易用户和超过1450万商户网络。
面对激烈的国内市场竞争、利润率压缩和利润下滑,公司积极将战略重心从物流领域拓展。企业公开承诺投入“数十亿”资金用于人工智能和国产芯片研发,以 revitalize其技术驱动的产品服务。
这一转向全球AI竞赛的战略在2025年末开始显现成果:团队先推出了5600亿参数的混合专家基础模型LongCat-Flash,随后很快推出了高级推理模型LongCat-Flash-Thinking。通过以企业友好的许可开源这些前沿模型,企业传递了其成为全球AI基础设施基础玩家的雄心,而非仅仅局限于区域电商和外卖巨头的定位。
企业应用价值:自主运营工作流
对于现代企业来说,LongCat-2.0的发布解锁了软件工程、系统运营和长文本数据解读领域的清晰运营策略。
这款开源权重、MIT许可的大模型搭配100万token的 expansive上下文窗口,让企业能够绕过托管专有第三方API带来的数据隐私担忧和 recurring开销。在大规模企业开发环境中,团队可以利用模型的专业代理专家来 orchestrate自主代码库迁移。
无需投入数百开发者工时手动重写遗留应用框架,工程师可以将整个企业仓库和现代SDK文档直接传入100万token的上下文窗口。LongCat-2.0能够自动映射依赖关系、执行仓库级结构更新、编译新代码库,并在本地沙箱环境中自动捕获编译和执行错误,最终生成最终的拉取请求。
通过多专家混合教师优化门控路由机制实现的架构分离,为严格的企业合规性带来了显著优势。金融机构或医疗企业可以通过隔离的专家集群路由特定的操作查询,在不引发事实幻觉或违反严格安全边界的前提下执行深度逻辑和数学推理任务。
交互专家充当了隐式的护栏层,抑制错误并强制执行指令遵循协议,同时不降低内部推理专家的原始处理能力。结合零成本缓存模型,企业可以维护高度专注的自主软件网络,能够反复检查企业数据池,以标准运营成本的一小部分持续维护和优化内部基础设施。
塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。




