AMD开源新模型:instella以30亿参数挑战性能天花板

2025-11-19 09:57:03
文章摘要
AMD 用一个只有 30 亿参数的小模型 Instella,干出了能和大模型掰手腕的效果。 它只用 1/10 的训练数据,就在数学推理、长文本理解上做到同级最强,还把训练方法、数据配方和代码全都公开。文章会带你看清:小模型并不是廉价版大模型,而是经过精雕细琢后依然能爆发惊人力量的精巧机器。

当GPT-4和Claude等闭源模型统治AI战场时,AMD放出开源炸弹。

Instella模型仅用4万亿token训练,却在数学推理、长上下文处理上碾压多数开放权重模型,证明了30亿参数的小模型依然拥有巨大的性能潜力。

论文链接:https://arxiv.org/pdf/2511.10628

项目链接:https://huggingface.co/collections/amd/instella


轻量化模型中的工程美学

Instella是完全开源的30亿参数语言模型,包括基础版Instella-3B、长上下文版Instella-Long(支持128K token)和数学推理版Instella-Math。

其核心创新在于:用仅4万亿预训练token(相当于同类模型1/10的量)实现竞争性性能,同时公开全部数据配方、代码和评估协议,颠覆了高参数需高数据的传统认知

其中Instella-3B采用了Transformer解码器架构,36层网络、2560隐藏维度和32注意力头,并引入多项优化技术

QK-Norm规范化:在注意力计算前对Query和Key向量进行层归一化,防止注意力权重极端化,提升训练稳定性(训练损失波动降低40%)

旋转位置编码:支持上下文窗口动态扩展,为长文本处理奠基

SwiGLU激活函数:替代传统ReLU,在feed-forward网络中提供更优梯度流。

词汇表大小50,304 token,基于OLMo tokenizer,平衡计算效率与表征能力。

训练硬件依托128块AMD Instinct MI300X GPU,采用全分片数据并行和FlashAttention 2技术,内存使用减少50%,吞吐量提升2倍。


三阶段Pipeline榨干数据价值

Instella的成功源于其精细化的训练流水线。

预训练阶段

  1. 第一阶段使用4.07万亿token的OLMoE-mix-0924数据集,覆盖编程、学术、数学等领域
  2. 第二阶段追加580亿token的高质量数据,通过权重集成(3个随机种子训练后合并)提升鲁棒性

指令微调

在230万指令-响应对上微调,数据源融合多轮对话、数学推理和代码生成。

结果模型Instella-3B-Instruct在MMLU基准达到58.9%,逼近同类开放权重模型。

对齐优化

采用直接偏好优化(DPO)处理7.6亿token的人类偏好数据,输出 helpfulness 和安全性提升35%(毒性得分从57.02降至42.34)。


128K token处理成本降低60%

Instella-Long通过两阶段持续预训练实现128K上下文支持

第一阶段扩展至64K token,RoPE基础频率调整至514,640

第二阶段使用256K token数据(双倍目标长度)训练,增强外推能力

在Helmet长上下文基准上,Instella-Long在Natural Questions、TriviaQA等任务平均得分52.7%,超越Phi-3.5-Mini和Gemma-3-4B。

更关键的是,其使用合成数据生成策略,从书籍、论文中提取长文档,用Qwen2.5-14B生成QA对,解决长上下文SFT数据稀缺问题。


强化学习让小模型爆发大能量

Instella-Math专为复杂推理设计,采用多阶段强化学习

监督微调:使用OpenMathInstruct-2和蒸馏数据AM-DeepSeek-R1,上下文扩至32K

群组相对策略优化:在DeepMath数据集上16轮rollout、16K token输出,逐步增加生成长度

结果令人震惊,在OlympiadBench、AIME等数学竞赛基准上,Instella-Math达到53.8%平均准确率,较监督微调版提升10.8个百分点。

尤其值得注意的是,它在战略推理基准(TTT-Bench)上以49.8%得分刷新完全开源模型记录,证明小参数模型通过强化学习可解锁深层推理能力。



性能实证:13项基准中12项领先开源模型

Instella在关键测试中碾压既往开源模型:

  1. 基础能力:MMLU得分58.9%,GSM8K达59.8%,超越Pythia-2.8B和OpenELM-3B
  2. 长上下文:在Helmet的NIAH-MV任务召回率84%,媲美闭源模型
  3. 数学推理:GSM8K准确率92.5%,较Qwen2.5-3B高出29%
  4. 成本效益比:训练token量仅为Gemma-2的1/5,但平均性能差距缩小至5%以内


声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。