腾讯、清华联合发布:从离散token到连续向量

2025-11-11 17:36:05
文章摘要
当别的AI还在一个字一个字的想,腾讯微信AI团队的CALM框架,已经能一个念头顶四个字。它把离散的文字变成连续的思维向量,让语言模型不再逐词慢跑,而是一次跃迁式生成。算力省三成,速度翻倍,这或许是LLM效率革命的开端。

在大型语言模型(LLM)逼近物理算力极限的今天,其自回归生成机制正成为效率的“阿喀琉斯之踵”。

据国外研究机构估算,GPT-4生成千字文本的推理成本超过0.1美元,而长达数秒的响应延迟更制约了实时应用场景

当传统LLM仍在逐token缓慢生成时,腾讯微信AI团队已让每个计算步骤承载4倍语义信息,计算成本降低34%,性能反而提升。

论文链接:https://arxiv.org/pdf/2510.27688

项目链接:https://github.com/shaochenze/calm


传统LLM的根本性缺陷:离散token的信息密度天花板

当前语言模型普遍存在计算效率瓶颈,其自回归生成过程需要逐步预测每个离散token。

由于词汇表大小限制(通常3.2万-25.6万),每个token仅携带15-18比特信息。若要提升信息密度,词汇表需指数级扩张,导致softmax计算成为不可承受之瓶颈。

CALM框架的核心突破在于将离散token序列压缩为连续向量,通过训练一个高保真自编码器,可将K个token(实验显示K=4最优)压缩为单个连续向量,重构准确率超99.9%。

这意味着生成步骤直接减少K倍,从根本上重构了计算效率曲线。


三大技术支柱支撑

1. 自编码器(VAE)

单纯追求重构准确率的自编码器会学习到脆弱表示,潜在空间缺乏平滑性。CALM引入变分正则化,使编码器输出高斯分布参数(μ, σ),通过KL散度损失约束潜在分布接近标准正态。采用KL裁剪策略(λ=0.5)防止后验坍塌,确保所有维度都参与信息编码。

2. 能量变换器

传统softmax无法处理连续向量空间的概率分布。CALM采用能量分数作为训练目标:

其中α∈(0,2)保证严格恰当性。通过蒙特卡洛估计,只需从生成头采样即可计算损失,完全避开似然计算。

3. BrierLM评估体系

传统困惑度指标在此失效。团队提出BrierLM评分,基于Brier分数的严格恰当评分规则:

实证显示与交叉熵损失相关系数达-0.966,成为衡量连续语言模型性能的可靠指标。


性能突破:计算成本降低34%

在Pile数据集上的测试表明:

● CALM-M(371M参数)达到Transformer-S(281M参数)相当性能,训练FLOPs降低44%,推理FLOPs降低34%

● 潜在维度l=128时最优,过小导致表征脆弱,过大引入噪声特征

● 缩放模型规模时,CALM展现比传统Transformer更陡峭的学习曲线,说明其能从参数增加中获得更大收益


温度采样:精确控制无需似然

● 传统温度采样依赖概率分布显式操作。CALM提出精确拒绝采样算法:对温度T=1/n(n为整数),通过n次采样拒绝机制实现分布

● 支持任意温度扩展,采用两阶段采样处理整数和小数部分

● 批量近似算法通过组合搜索提升采样效率,渐近无偏性得到理论保证

语义带宽带来的竞争新维度

CALM 不是一次预测一个词元,而是预测代表多个词元的连续向量。也就是说,模型不再是逐字思考,而是按步骤思考想法。

1.  预测步骤减少 4 倍

2.  训练计算量减少 44%

3.  不使用离散词汇,纯粹的连续推理

4.  新指标(BrierLM)完全取代了困惑度

模型开始从说摩尔斯电码,到能流畅的表达完整想法,加上框架开源,这场连续向量革命可能重新定义2026年语言模型的竞争格局。


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。