国产大模型春节档变天!GLM-5架构全泄露,参数飙至745B
2026-02-11 14:14:24
文章摘要
神秘模型 Pony Alpha 屠榜,参数暴涨一倍,智谱 GLM-5 箭在弦上。

2 月 11 日,就在全网还在为 Seedream 讨论不休时,国产大模型又扔下了一枚重磅炸弹

这两天,OpenRouter 平台上突然推出名为 Pony Alpha 的神秘模型,不仅在编程和复杂推理任务上表现强劲,更隐隐有屠榜之势。有开发者发现,其思维链风格与 DeepSeek 惊人相似,但中文语境的细腻程度又带有明显的"京派"大模型特征。


OpenRouter 上神秘出现的 Pony Alpha

与此同时,资本市场先知先觉。受相关利好消息刺激,智谱 AI 相关概念股及二级市场估值在短短两日内暴涨近 60%

所有的线索,都指向了同一个答案:

这是智谱 AI 即将发布的年度旗舰——GLM-5。

塔猴经过多方查证,结合 GitHub 最新泄露的代码库信息确认,GLM-5 不仅将参数规模推高到了惊人的 745B(7450 亿),更在架构上全面拥抱 MoE(混合专家),甚至复刻了 DeepSeek-V3 的核心技术路线。


一、GitHub 泄露天机

尽管官方尚未正式官宣,但 GitHub 上的一份 config.json 配置文件已经泄露了天机

根据泄露的代码提交记录,GLM-5 的总参数量高达 745B。这是什么概念?相比上一代主力模型 GLM-4.7(约 400B+),GLM-5 的体量几乎翻了一倍


GitHub 泄露的 config 文件参数细节

但在"大"的同时,智谱这次更追求""。

泄露文件证实,GLM-5 明确采用了 MoE(混合专家)架构。虽然总参数惊人,但其激活参数量被精准控制在 40-50B 之间。

也就是说,GLM-5 在拥有万亿级模型知识储备的同时,推理成本却能保持在千亿级模型的水平。这与 DeepSeek-V3 "用更少的算力做更多的事"的理念不谋而合

至于代号 Pony,更是一个明显的彩蛋。2026 年是中国农历马年,Pony 即小马,预示着这也是智谱为即将到来的春节档准备的贺岁大礼

据非官方汇总站点消息,结合代码库的更新频率,GLM-5 的正式发布窗口已基本锁定在 2026 年 2 月中旬(春节前后)


二、技术路线大洗牌

如果说参数的膨胀是意料之中,那么架构的调整则彻底暴露了行业风向的转变

细读泄露的技术文档,我们会发现 GLM-5 的核心技术特征与 DeepSeek-V3/V3.2 呈现出高度的默契

首先是稀疏注意力机制(DSA)。

GLM-5 似乎放弃了传统的全注意力机制,转而采用类似 DeepSeek 的稀疏注意力方案。这种技术能显著降低计算复杂度,让模型在处理超长上下文(Long Context)时,不再是"老牛拉破车",而是如跑车般丝滑

其次是多 Token 预测(MTP)。

这是 DeepSeek 引以为傲的独门绝技之一,如今也出现在了 GLM-5 的架构猜测中。通过一次预测多个 Token,GLM-5 的推理速度有望成倍提升,这将直接利好编程辅助、实时对话等对延迟极度敏感的 Agent 场景


DeepSeek-V3 与 GLM-5 架构对比(来源 Ahead of AI)

这一现象耐人寻味。

过去,国产大模型都在苦苦追赶 OpenAI 的背影。而如今,国产头部厂商开始摸着 DeepSeek 过河

GLM-5 的架构转向证明,“MoE+MTP+FP8” 的技术组合,已成为国产大模型迈向万亿参数时代的事实标准。DeepSeek 不再只是一个竞争对手,它正在成为行业的技术领路人


三、实测 Pony Alpha

光说不练假把式。塔猴小分队第一时间在 OpenRouter 上抢到了 Pony Alpha 的测试资格

为了验证其身份,我们首先对 Pony Alpha 进行了分词器测试。当输入几组特定的生僻字符串时,其分词逻辑与 GLM-4 系列完全一致

身份实锤,这就是 GLM-5 的测试版。

在随后的能力实测中,Pony Alpha 的表现堪称惊艳

我们让它制作一个单页 HTML 游戏,重现一个超级马里奥兄弟关卡,并让它随意创作和发挥,Pony Alpha 很快就给出了完美运行的代码。


Pony Alpha 生成的马里奥游戏

在多轮对话的 Agent 测试中,Pony Alpha 对工具调用的响应速度也明显快于现役的 GLM-4.7,显然是吃到了 MTP 架构红利


四、结语

随着 Pony Alpha 的曝光和 GLM-5 架构的浮出水面,2026 年的春节注定不会平静。

这可不仅仅是一个新模型的发布,更标志着国产大模型进入了后 DeepSeek 时代

参数规模仍非常重要(745B),但架构的效率之争已成胜负手。智谱 GLM-5 的激进变阵,既是对市场焦虑的回应,也是对技术趋势的敏锐捕捉

春节期间,除了智谱,预计字节、阿里等大厂也将会有动作。这场由 DeepSeek 点燃的架构升级战,才刚刚开始。

GLM-5 能否凭借国家队的底蕴和新的架构红利,从 DeepSeek 手中夺回最强国产模型的头衔?

答案,将在几天后揭晓。

声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
生成式大模型
开源大模型
模型部署