Liquid AI发布230M小模型:边缘数据提取高效新方案

一支由前MIT计算机科学家创立的团队近日推出了旗下最小的AI语言模型LFM2.5-230M,这款仅2.3亿参数的基础模型专为端侧智能工作流设计,非常适合企业用于数据提取以及在智能手机、笔记本电脑和机器人设备上本地部署。
LFM2.5-230M是一款专门为端侧智能工作流打造的基础模型,其小巧的体积让它几乎可以在任何设备上运行。根据研发团队的测试数据,这款模型在指定基准测试中的表现优于参数规模超过其4倍的同类模型,在数据提取任务上的表现,优于参数规模8亿的Qwen3.5-0.8B(Instruct)以及10亿参数的Gemma 3 1B。
这款模型的目标用户是开发轻量化数据提取管道和自主边缘系统的开发者与工程师。
该模型采用双用途商业授权模式:年收入低于1000万美元的个人和企业可以免费使用,而年收入超过该阈值的大型公司则需要签署付费的企业授权协议才能部署。
相较于其他小型AI模型,这款新品的核心优势在于采用了LFM2架构,能够在实现高推理速度的同时,避免传统大参数量Transformer模型常见的巨大内存开销。
当前主流AI企业纷纷通过将参数规模提升至千亿甚至万亿级别来追求前沿性能,而另一并行赛道则完全聚焦于边缘和本地部署场景。LFM2.5-230M的发布,标志着AI研发向架构效率而非暴力扩容的关键转变。研发团队将19万亿token的预训练数据压缩进2.3亿参数的模型体积中,证明了边缘设备无需强大的计算能力或持续的云连接,就能执行复杂的多步智能工作流。
模型的技术架构特点
LFM2.5-230M与标准Transformer架构不同,采用了LFM2混合框架,将门控短程卷积与分组查询注意力机制相结合,实现高效的信息处理。
对于关注高效架构演进的从业者来说,该设计的核心目标与同类优化方案一致:在边缘硬件上有效处理长上下文和序列数据,同时避免纯注意力机制带来的二次内存成本。这款模型支持32K的超大上下文窗口,能够处理大量文档或机器人遥测的连续数据流。
从发布的性能测试数据来看,其架构效率优势十分明显。该模型的内存占用不到400MB,同时prefill和解码速度优于Gemma 3 1B IT和Granite 4.0-H-350M等同类模型。
在搭载高通骁龙Gen4 CPU的三星Galaxy S25 Ultra上,该模型的解码速度可达213token每秒;即使在配置受限的树莓派5上,解码速率也能维持在42token每秒。此外,内部测试显示,其GPU推理栈在所有并发级别下的端到端延迟都低于同类小型模型。
对企业的核心价值
要理解这款2.3亿参数模型的必要性,需要先了解企业当前的数据管理现状。
传统企业通常依赖基于规则的提取、转换、加载(ETL)脚本,来处理和迁移数据,但这类老旧系统的脆性极强:只要文档布局发生简单变化或schema更新,整个数据管道就可能失效。
为解决这一问题,行业正在转向“AI ETL”:通过机器学习自动推断数据映射、检测schema漂移并自动适应变化。在现代轻量化数据提取管道中,AI模型可以直接对接非结构化数据源,比如PDF、邮件或网页表单,并将数据结构化化为JSON等格式,无需硬编码规则。
对于企业来说,使用Claude Opus 4.6这类旗舰大模型,每百万输入token收费5美元,用来处理常规发票解析、地址格式化或遥测数据路由等任务,在经济上并不划算。
LFM2.5-230M正是针对这一痛点设计的轻量化提取引擎,能够让企业以极低的计算成本和延迟自动化重复性的格式转换和数据解析工作,直接在本地硬件上运行,无需依赖昂贵且持续的云API调用。
同级别小模型的性能对比
2026年中期的AI行业正迎来“小模型”的复兴,但“小”的定义差异极大。
近期,开源模型社区被微博的VibeThinker-3B惊艳到:这款30亿参数的模型基于Qwen2架构,在AIME 2026数学基准测试中取得了94.3的高分,通过激进的数据整理和强化学习,性能媲美6000亿参数的巨型模型。
同样,谷歌的Gemma4家族下载量已突破2亿,将前沿AI技术推向边缘场景,其中E2B(20亿参数)专为移动和IoT部署设计。
与之相比,LFM2.5-230M的参数规模完全属于另一个量级:仅2.3亿参数,大约是谷歌最小的Gemma4模型和VibeThinker-3B的十分之一。
研发团队明确表示,由于体积极小,LFM2.5-230M并非为复杂推理任务设计,比如高等数学、代码编写或创意写作,但在其预设的数据提取和工具调用领域,这款模型的表现远超其参数规模。
研发团队发布的基准测试数据显示,LFM2.5-230M在BFCLv3工具使用基准测试中得分为43.26,优于IBM的Granite 4.0-350M(39.58),并且远超10亿参数的谷歌Gemma 3 1B IT(16.61)。
在数据提取专用基准CaseReportBench上,该模型得分为22.51,远超Qwen3.5-0.8B(Instruct)。
这证明,当30亿参数的VibeThinker等模型专注于高等数学推理时,2.3亿参数的LFM2.5-230M是在受限硬件上高效执行结构化工具调用和智能工作流的更优选择。
前沿研究与落地场景
由于擅长工具调用,LFM2.5-230M主要作为技能选择层发挥作用。研发团队已将该模型部署在Unitree G1人形机器人上验证其能力。
该模型完全在机器人搭载的NVIDIA Jetson Orin计算模块上本地运行,能够成功处理复杂的环境指令。
根据团队的技术博客,该模型可以接收类似“保持静止2秒,然后以每秒1米的速度向前行走3米,单腿向前跪地保持5秒,再以每秒0.5米的速度向后行走3米”的自由格式指令,并自动转换为结构化的多步计划,调用NVIDIA SONIC框架提供的预训练低级技能完成任务。
基础版和微调版模型已在Hugging Face平台上线,原生支持llama.cpp(GGUF)、MLX、vLLM、SGLang和ONNX等主流推理生态。
双授权许可模式
LFM2.5-230M采用LFM Open License v1.0授权协议。尽管名称中带有“开源”字样,但该协议并非符合OSI认证的开源许可,而是一种受限的双用途商业框架。
对于独立开发者、研究人员和早期初创公司来说,该协议的使用规则与开源软件一致:用户获得永久、全球、免版税的许可,可以复制、修改和分发模型,但需要保留原始版权声明,并明确标注所有修改内容。
不过,该协议包含严格的商业使用限制:任何年收入超过1000万美元的法人实体,将失去基于该协议的商业使用权利。
达到该营收门槛的大型企业,需要与研发团队签署单独的付费商业协议,才能在生产环境中部署该模型。
这种授权策略既保护了团队的知识产权,避免被大型科技集团无偿占用,同时也能在基层开发者社区中快速推广模型。
塔猴是一个专注于为用户提供系统学习、内容创作与商业连接的AIGC综合服务平台,致力于为每一位AI探索者打造理想的创作、成长家园。在塔猴,你不仅可以学习众多AIGC类实战课程,获得与时俱进的AIGC技能和视野,还有机会获得长期商业合作和接单机会!点击进入:https://www.tahou.com/
AI生成内容提示:本文由人工智能辅助创作,内容仅供参考,不代表平台观点。请注意核实信息的准确性,并理性判断。




