MiniMax首发全模态Token Plan,AI终于迈入“全家桶”时代?

2026-03-24 17:03:03

3月23日,国内AI独角兽MiniMax对外宣布了一项重磅的商业化动作。他们将原有的编程订阅计划(Coding Plan)全面升级为全球首个支持全模态模型的订阅计划——Token Plan。

根据官方释出的信息,此次升级最大的看点在于“全能”与“降本”。Token Plan彻底打破了过去仅限于文本和代码的调用框架,全面集成了MiniMax旗下的全明星模型矩阵。用户现在可以在同一个订阅池内,无缝调用新发布的M2.7编程模型、Hailuo(海螺)2.3视频模型、Speech 2.8语音模型、Music音乐模型以及Image图像生成模型。

针对现有的Plus及以上套餐用户,系统会在原有编程模型配额的基础上,额外赠送多模态模型的调用额度。在赠送额度内使用视频、音频和图像生成功能,完全无需额外付费。同时,针对有大批量生产需求的专业开发者和企业,MiniMax推出了打八折的专属“语音资源包”与“视频资源包”。

这看似只是一次常规的套餐计费调整,但在当下的AI大模型产业语境中,它敏锐地切中了一个长期被忽视的行业痛点,并试图在应用生态层确立一种全新的商业标准。


统一度量衡:打破“模态计费”的巴别塔


要理解Token Plan的产业价值,我们需要先看看当前AI开发者所面临的“计费割裂”现状。

在大模型的底层逻辑中,不同的模态有着完全不同的算力消耗规律。文本模型通常按“Token(词元,可以粗略理解为字数)”计费;语音模型按“生成的音频秒数”或“字符数”计费;图像模型按“生成张数和分辨率”计费;而视频生成最为昂贵,通常按“生成的秒数”进行阶梯定价。

这种犹如“巴别塔”般鸡同鸭讲的计费体系,给开发者和企业客户带来了极高的管理难度。当一家企业想要开发一个同时具备“视觉分析、语音对话、文本总结”的复杂应用时,财务部门往往需要面对三四套完全不同的计费面板,极难准确核算单个应用的单次交互成本。

MiniMax推出的Token Plan,本质上是在做一项“统一度量衡”的基础设施工作。

通过将视频、音频、图像的算力消耗,在底层统一折算为特定的配额比例,MiniMax为用户提供了一个清晰的“资源总资金池”。开发者只需要盯着一个账户余额,就能随心所欲地调配不同感官维度的AI能力。这种计费逻辑的平滑化,为极其复杂的多模态应用落地,扫清了第一道财务核算障碍。

image.png


深度集成OpenClaw:给“数字员工”装上全套感官


Token Plan的发布,在极客圈和开发者社区引发了最直接的震动,尤其是与当下爆火的开源智能体框架OpenClaw(全网戏称“龙虾”)的深度联动。

在OpenClaw的生态里,开发者热衷于搭建各种全天候待命的AI Agent(智能体)。过去,如果你想在OpenClaw里捏一个“能看、能听、能说”的数字员工,流程极其繁琐。你需要分别去OpenAI买文本API,去ElevenLabs买语音API,再去Runway买视频API。不仅要在代码里对接三家完全不同的接口,还要随时提防某一家接口欠费停机导致整个智能体瘫痪。

MiniMax此次的生态打通,直接将这种“拼凑式开发”变为了历史。

基于Token Plan,用户现在可以在OpenClaw中直接一键安装MiniMax的多模态工具集(Skill)。这意味着,开发者可以用极低的门槛,让自己的AI Agent瞬间拥有MiniMax旗舰级的多模态能力。

想象一个具体的业务场景:一个全自动的电商客服Agent,不仅能用文字回复买家的长篇提问(调用M2.7模型),还能用极具亲和力的定制音色发送语音安抚客户(调用Speech 2.8模型),甚至能根据用户的需求,实时生成一段几秒钟的商品展示视频(调用Hailuo 2.3模型)。

所有这些跨越模态的高级动作,都在Token Plan的单一接口和统一计费下顺滑完成。MiniMax通过这种深度的生态集成,极大地降低了智能体的开发摩擦力,让Agent从一个单纯的“聊天机器”,进化为一个具备全套感官输出能力的“超级打工”。

Agent Teams 协作模拟演示

【Agent Teams 协作模拟演示】

盘点“订阅疲劳”:天下苦“缝合怪”久矣


在这个时间节点推出全模态订阅,不仅是一次针对开发者的福利释放,更是对整个C端用户市场“订阅疲劳(Subscription Fatigue)”的一次精准狙击。

如果我们把视线拉宽,看看目前AI赛道里的用户消费现状,会发现一个极其割裂的图景。

为了得到最好的AI体验,一个追求极致生产力的创作者,每个月的账单可能长这样:付20美元给ChatGPT Plus用来写文章和总结文档;付10到30美元给Midjourney生成高质量的配图;付15美元给Suno来制作播客的背景音乐;如果是短视频创作者,可能还要再花30到50美元去订阅Runway或者国内的Kling(可灵)来生成视频素材。

不仅花销极其高昂,这些散落在不同平台的工具还互不相通。创作者被迫扮演一个疲于奔命的“缝合怪”,在不同的网页和App之间来回复制、粘贴、导出、导入。数据无法沉淀,工作流被生生切断。

大厂们当然看到了这个痛点。OpenAI在ChatGPT Plus中逐渐内置了DALL-E 3的画图能力和高级语音模式(Advanced Voice Mode),但在视频生成(Sora)的全面开放和API计费的统一定价上,依然显得谨慎且缓慢。

国内的大模型赛道同样面临“单科状元”的局限。有的厂商在长文本处理(如Kimi)上做到极致,有的厂商专攻代码能力,但能在一个订阅体系内,同时提供第一梯队的文本、语音、图像和视频生成能力的企业,屈指可数。

MiniMax之所以能率先打出“全模态Token Plan”这张底牌,得益于其极其罕见的全面技术布局。

在语音领域,MiniMax星野(Glow)在海内外积累了庞大的拟人化语音交互数据,Speech 2.8模型的声音表现力早已被市场验证;在视频领域,Hailuo(海螺)系列模型一直是国内文生视频赛道的头部玩家;再加上其在自然语言处理上的持续迭代(M2.7),MiniMax是目前少数几家真正在“全模态”上没有明显短板的AI企业。这种技术上的均衡,构成了它敢于打包兜售“全家桶”的底气。

AI下半场,拼的是“一站式供给”

当大语言模型的参数规模红利逐渐见顶,AI产业的竞争焦点正在发生实质性的转移。

在过去的两三年里,整个行业处于“比拼单点爆发力”的阶段。大家都在期待某一个模型在某项基准测试(Benchmark)中跑出最高分。但在商业落地的真实场景里,企业和创作者真正关心的,是如何低成本、高效率地完成一个完整的业务闭环。

对于一个成熟的开发者团队或者内容创作机构来说,他们需要的不再是几十把散落各处、各有所长但难以协同的绝世神兵,而是一个趁手、计费清晰、能无缝串联所有工作流的“超级兵工厂”。

MiniMax此次的Token Plan,正是对这种需求升级的积极回应。

通过这种极具性价比的订阅模式,MiniMax率先在开发者(尤其是OpenClaw生态)中建立起了从文本到影音的消费闭环。当开发者习惯了在一个统一的Token池里调用语音生成视频,当企业财务习惯了只对账一家供应商的API账单,这种生态层面的粘性,将远比单纯的模型跑分更具商业壁垒。

从深耕编程代码,到横跨影音图文,这种“全模态”订阅模式的普及,或许标志着AI作为生产力工具的正式成熟。它不再是一个需要用户去适应其复杂计费规则的极客玩具,而正在演变成一项像水电网一样,可以被一站式打包购买、即插即用的现代基础设施。

当“全模态全家桶”成为行业的标配,开发者与创作者的生产力边界,将在这种极度流畅的无缝切换中,被再次重定向。(微信公众号:Tahou_2025)


关注塔猴公众号,回复“1”加入专属社群

扫码下载塔猴APP,查看更多干货



声明:该内容由作者自行发布,观点内容仅供参考,不代表平台立场;如有侵权,请联系平台删除。
标签:
多模态大模型
智能体(Agent)
视频生成大模型
语音技术
图像生成