国产大模型春节档变天！GLM-5架构全泄露，参数飙至745B

阿司匹林

2026-02-11 15:28:57

生成式大模型

开源大模型

模型部署

文章摘要

神秘模型 Pony Alpha 屠榜，参数暴涨一倍，智谱 GLM-5 箭在弦上。

2 月 11 日，就在全网还在为 Seedream 讨论不休时，国产大模型又扔下了一枚重磅炸弹。

这两天，OpenRouter 平台上突然推出名为 Pony Alpha 的神秘模型，不仅在编程和复杂推理任务上表现强劲，更隐隐有屠榜之势。有开发者发现，其思维链风格与 DeepSeek 惊人相似，但中文语境的细腻程度又带有明显的"京派"大模型特征。

OpenRouter 上神秘出现的 Pony Alpha

与此同时，资本市场先知先觉。受相关利好消息刺激，智谱 AI 相关概念股及二级市场估值在短短两日内暴涨近 60%。

所有的线索，都指向了同一个答案：

这是智谱 AI 即将发布的年度旗舰——GLM-5。

塔猴经过多方查证，结合 GitHub 最新泄露的代码库信息确认，GLM-5 不仅将参数规模推高到了惊人的 745B（7450 亿），更在架构上全面拥抱 MoE（混合专家），甚至复刻了 DeepSeek-V3 的核心技术路线。

一、GitHub 泄露天机

尽管官方尚未正式官宣，但 GitHub 上的一份 config.json 配置文件已经泄露了天机。

根据泄露的代码提交记录，GLM-5 的总参数量高达 745B。这是什么概念？相比上一代主力模型 GLM-4.7（约 400B+），GLM-5 的体量几乎翻了一倍。

GitHub 泄露的 config 文件参数细节

但在"大"的同时，智谱这次更追求"巧"。

泄露文件证实，GLM-5 明确采用了 MoE（混合专家）架构。虽然总参数惊人，但其激活参数量被精准控制在 40-50B 之间。

也就是说，GLM-5 在拥有万亿级模型知识储备的同时，推理成本却能保持在千亿级模型的水平。这与 DeepSeek-V3 "用更少的算力做更多的事"的理念不谋而合。

至于代号 Pony，更是一个明显的彩蛋。2026 年是中国农历马年，Pony 即小马，预示着这也是智谱为即将到来的春节档准备的贺岁大礼。

据非官方汇总站点消息，结合代码库的更新频率，GLM-5 的正式发布窗口已基本锁定在 2026 年 2 月中旬（春节前后）。

二、技术路线大洗牌

如果说参数的膨胀是意料之中，那么架构的调整则彻底暴露了行业风向的转变。

细读泄露的技术文档，我们会发现 GLM-5 的核心技术特征与 DeepSeek-V3/V3.2 呈现出高度的默契。

首先是稀疏注意力机制（DSA）。

GLM-5 似乎放弃了传统的全注意力机制，转而采用类似 DeepSeek 的稀疏注意力方案。这种技术能显著降低计算复杂度，让模型在处理超长上下文（Long Context）时，不再是"老牛拉破车"，而是如跑车般丝滑。

其次是多 Token 预测（MTP）。

这是 DeepSeek 引以为傲的独门绝技之一，如今也出现在了 GLM-5 的架构猜测中。通过一次预测多个 Token，GLM-5 的推理速度有望成倍提升，这将直接利好编程辅助、实时对话等对延迟极度敏感的 Agent 场景。

DeepSeek-V3 与 GLM-5 架构对比（来源 Ahead of AI）

这一现象耐人寻味。

过去，国产大模型都在苦苦追赶 OpenAI 的背影。而如今，国产头部厂商开始摸着 DeepSeek 过河。

GLM-5 的架构转向证明，“MoE+MTP+FP8” 的技术组合，已成为国产大模型迈向万亿参数时代的事实标准。DeepSeek 不再只是一个竞争对手，它正在成为行业的技术领路人。

三、实测 Pony Alpha

光说不练假把式。塔猴小分队第一时间在 OpenRouter 上抢到了 Pony Alpha 的测试资格。

为了验证其身份，我们首先对 Pony Alpha 进行了分词器测试。当输入几组特定的生僻字符串时，其分词逻辑与 GLM-4 系列完全一致。

身份实锤，这就是 GLM-5 的测试版。

在随后的能力实测中，Pony Alpha 的表现堪称惊艳。

我们让它制作一个单页 HTML 游戏，重现一个超级马里奥兄弟关卡，并让它随意创作和发挥，Pony Alpha 很快就给出了完美运行的代码。

Pony Alpha 生成的马里奥游戏

在多轮对话的 Agent 测试中，Pony Alpha 对工具调用的响应速度也明显快于现役的 GLM-4.7，显然是吃到了 MTP 架构红利。

四、结语

随着 Pony Alpha 的曝光和 GLM-5 架构的浮出水面，2026 年的春节注定不会平静。

这可不仅仅是一个新模型的发布，更标志着国产大模型进入了后 DeepSeek 时代。

参数规模仍非常重要（745B），但架构的效率之争已成胜负手。智谱 GLM-5 的激进变阵，既是对市场焦虑的回应，也是对技术趋势的敏锐捕捉。

春节期间，除了智谱，预计字节、阿里等大厂也将会有动作。这场由 DeepSeek 点燃的架构升级战，才刚刚开始。

GLM-5 能否凭借国家队的底蕴和新的架构红利，从 DeepSeek 手中夺回最强国产模型的头衔？

答案，将在几天后揭晓。

以上内容不代表本平台立场，仅供读者参考