Mac用户可以在oMLX中使用TurboQuant了,搭配Gemma-4-31B,谷歌全家桶实测很能打!
对本地部署玩家,尤其是Mac用户来说,长上下文推理最大的痛点往往不是“模型不够聪明”,而是稍微多用点上下文,统一内存就被撑爆了”,这一点在最近的Gemma-4 31B的部署中尤为明显,在同等上下文的情况,显存占用比Qwen3.5-27B高约一倍不止,直接劝退了不少人。但好消息是,谷歌近期提出的TurboQuant KV缓存量化算法,正是为了解决这个痛点而生。

oMLX框架近期通过连续几次硬核版本迭代,正式引入并优化了这一特性。我的实测与社区反馈汇总显示:在搭配原生支持超长上下文的Gemma-4模型时,TurboQuant并不能让你的模型智力飞跃或速度暴涨,但它能把原本根本跑不动的128K甚至256K极限长上下文,硬生生拉入“能用、敢开、可持续实战”的区间。
不过,它的收益高度依赖于你使用的上下文长度、框架版本以及具体的推理负载。本文不喊改变行业的口号,只通过实测数据与技术脉络,把三件事说透:它到底是什么,在oMLX里怎么开,以及长上下文场景下的实测表现究竟如何。

TurboQuant到底是什么,它解决了什么问题
在讨论怎么用之前,我们需要先纠正一个常见误区:TurboQuant不是用来压缩模型权重的(比如常见的Q4、Q8量化),它是专门针对大模型运行时的KV缓存(KV Cache)进行极高效压缩的算法。

- 技术原理解码: 根据谷歌官方在2026年3月发布的介绍,TurboQuant通过两步实现近乎无损的压缩。首先,它对KV向量进行随机正交旋转,并将其转换到极坐标空间(PolarQuant),对半径进行高精度量化。随后,它施加1-bit Johnson-Lindenstrauss投影(QJL)来消除剩余偏差。
- 工程意义: 传统的分块量化(如Q4_0)需要为每个数据块保存缩放参数,压缩率通常在2到4倍。而TurboQuant因为是“数据无关”的方法,省去了每块的缩放因子开销,可以在3-bit时实现约4到5倍的极端压缩,并且理论上精度损失极小(测试显示PPL增幅仅约1%)。
- 它解决了什么问题: 当你和AI进行长篇对话或让它阅读长文档时,KV缓存会呈线性增长。对于短对话,这点内存微不足道;但当上下文拉到32K甚至128K时,庞大的KV缓存会直接吃光你的显存/统一内存,导致程序崩溃(OOM)。TurboQuant就是为了把这座“内存大山”硬生生削减70%以上。
- 其他信息:这个项目的研究团队最近面临学术不端的指控,如果你想吃这个瓜,可以看下之前的文章:TurboQuant逼近信息论极限,却用A100显卡「碾压」单核CPU:Google的底线在哪?
TurboQuant + Gemma-4这个组合值得看
我们之所以要把Mac(Apple Silicon)、oMLX框架和TurboQuant+Gemma-4模型绑在一起讨论,是因为这个组合精准踩中了当前本地部署的几个极限挑战:
- Mac统一内存的现实约束: Mac的统一内存架构允许我们将巨大的显存分配给模型,这对于跑大参数模型是极大的优势。但正因为权重已经占用了大量内存,留给长上下文KV缓存的空间往往捉襟见肘。“模型跑得动,但上下文拉不长”是很多拥有消费级设备的用户目前跑Gemma4系列模型的痛点。
- Gemma-4的“长跑”天赋与挑战: 谷歌DeepMind发布的Gemma-4系列(包括26B和31B)原生支持高达256K的超长上下文窗。但在实际测试中,Gemma-4 31B在同等上下文下的显存占用相比其他模型(如Qwen3.5-27B)约高出一倍,甚至不止。对这个问题感兴趣您可以看下这系列的上一篇文章谷歌的Gemma-4-31B适合哪些人?值得你放弃Qwen3.5-27B吗?深度调研战略报告
- 天作之合: 一边是极度渴望长上下文但内存压力巨大的模型(Gemma-4),另一边是专为Apple Silicon优化的推理栈(oMLX),再搭配上专治KV臃肿的算法(TurboQuant)。这个组合的落地,直接决定了本地机器能否真正实现“长文档自由”。
如何在oMLX里开启TurboQuant
既然是实战攻略,我们直接来看最能避坑的操作指南。如果你现在就想打开oMLX尝试,请务必先核对以下几点:
版本要求(极其关键)
强烈建议升级至 oMLX v0.3.4 及以上版本(或v0.3.5.dev1)。

- 避坑指南: 早期v0.2.21版本虽然引入了TurboQuant,但解码阶段有显著的速度惩罚。v0.3.2虽然试图通过“Prefill即时量化”降低峰值内存,但由于混合注意力机制的bug,会导致模型输出“失焦”或陷入“死循环”。
- v0.3.4的质变: v0.3.4版本重写了KVCache继承关系,并引入了全新的融合Metal内核,一举修复了循环Bug,并将解码阶段的速度开销从原来的 +43% 暴力降至仅 +8%。
开启入口与配置
- 进入oMLX的 管理员界面 -> “模型设置” -> “然后打开你要启用模型的设置界面”。

- 勾选并启用 “TurboQuant KV Cache” 选项。

- 参数建议: 默认推荐 3-bit 模式以获取最大压缩比。若你的任务对一致性要求极高且显存尚有余量(如24GB/32GB跑26B模型),可以尝试 4-bit 保守模式。在最新的v0.3.5.dev1中,官方还加入了更为保守的6-bit和8-bit选项。

实测设计:我们怎么看它的战斗力
为了验证“很能打”是不是句空话,咱们不能只看简单的跑分截图。综合社区基准测试(如Incept5、LocalLLaMA等)和官方Release Notes的数据,我梳理了以下多维度的测试对照体系:
- 测试环境参考: 包含Mac M5 Max(128GB统一内存)作为Apple Silicon顶配代表,以及NVIDIA RTX 5090(32GB VRAM)作为单卡极限显存对比参考。
- 框架与模型: oMLX v0.3.4及以上版本,测试模型为主打长上下文的Gemma-4 31B。
- 观察指标:
- 内存表现: 重点区分“峰值内存(Peak Memory)”与“持久KV缓存(KV Cache Mem)”的变化。
- 吞吐量: 预填充速度(Prefill tokens/s)与解码/生成速度(Decode tokens/s)。
- 质量感知: 针/大海捞针(NIAH)准确率及日常质量损失。
实测结果:开与不开,差别到底在哪
将不同上下文长度的数据切分后,TurboQuant的价值曲线非常清晰:
短上下文(<16K):没必要开,甚至有微小副作用
在8K或16K以下的场景,启用TurboQuant的收益几乎为零。

- 内存: KV缓存本身并不大,总内存占用几乎没有感知级别的下降(例如Qwen3.5-4B在8K下KV缓存仅从0.30GB降到0.10GB)。
- 速度: 增加了一次量化查表动作,解码速度反而会略微下降。实测显示解码速度约为基线的92-100%。短对话玩家直接用常规FP16即可。
中等上下文(32K-64K):内存红利开始显现
到了这个区间,TurboQuant开始发挥威力。
- 内存骤降: 官方数据显示,在32K上下文中,3-bit TurboQuant能将KV缓存缩减高达73%-75%(例如从2.14GB降至0.54GB)。
- 性能抵消: 得益于v0.3.4的Metal融合内核优化,此时解码的微小额外开销(~8%)已经完全可以被接受。
极限长上下文(128K-256K):化不可能为可能
这是TurboQuant真正的“统治区”。
- 在非Apple路径的参考测试中(RTX 5090 32GB),开启Turbo3量化后,Gemma-4 31B成功跑满了262K极限上下文!此时显存占用控制在了27.7GB(对应KV压缩约4.5倍),并在极长上下文中依然保持了约61 tokens/s的生成速度。如果不开启该功能,32GB显存在256K上下文下绝对会面临OOM。

- 在Mac生态中,对于128K上下文的挑战,TurboQuant能将Qwen3.5-27B的KV缓存占用从原先的巨无霸级别(如8.14GB)暴力压缩到1.70GB(降幅近79%)。

- 在我自己的实测中,开启TurboQuant KV Cache 3-3bit后,成功将128k上下文的Gemma-4-31B加载到我的内存中。

如果用一个不带TurboQuant的推理栈,如目前的LM Studio,下图。那128k上下文连加载都加载不了。

为什么会出现这些结果?
很多人会问:为什么开了量化,有时候速度变慢了,有时候速度反而变快了?
- 短上下文显“慢”: 短文本时,模型推理的瓶颈在“加载庞大的模型权重”上。TurboQuant增加的坐标旋转和查表计算成了纯粹的额外负担。
- 长上下文显“快”: 当上下文飙升到128K以上时,巨大的KV张量在内存和芯片之间搬运(内存带宽瓶颈)成为了头号杀手。在社区M5 Max跑Gemma-4 31B的实测中,由于TurboQuant极大压缩了需要读取的数据体积,解码吞吐量在64K/128K/256K时反而比基线(不开TurboQuant)提升了15%~19%。节省带宽带来的收益,终于超越了量化计算的开销。

不过,需要特别指出一个核心技术难点:存储态的KV变小了,并不意味着“峰值内存”会同比例缩小。如果Prefill(预填)阶段仍需要完整的FP16张量来计算,那你的机器可能依然会因为短时间的峰值而崩溃。oMLX团队在后续版本引入的“Prefill即时量化”与“混合注意力”机制,正是为了削弱这根要命的峰值天线。
误区:对OpenClaw和长工作流意味着什么?
如果你在Mac上使用OpenClaw、Claude Code等Agent,请务必关注以下误区:
- 误区1:以为开了TurboQuant,Agent就不会断联了。
- 实际上: 代理工作流经常会一口气塞入数万Token(如66K+ prompt)。虽然TurboQuant帮你保住了内存没有溢出,但超长Prefill带来的“漫长计算时间”极易触发客户端超时(Timeout)或中断(GeneratorExit)。这是系统响应机制的问题,并非TurboQuant能单独解决。
- 误区2:开启后模型智商变低,不能执行工具调用。
- 实际上: 虽然v0.3.2的bug曾导致循环问题(已在v0.3.4修复),但大量“无法使用工具”的报错实际上是因为代理工具的解析模板与Gemma-4等模型的兼容性问题,与KV缓存开关本身无关。官方已在v0.3.5.dev1中专门针对Gemma 4的原生工具调用进行了解析改进。

适合谁,不适合谁
技术没有银弹,它只服务于对口的场景。
强烈推荐人群:
- 本地长文档/书籍解析用户: 经常给大模型“喂”财报、长篇代码、小说的玩家。
- 16GB/24GB/32GB Mac用户: 试图在极度受限的统一内存中,跨级挑战大参数模型(如Qwen-27B、Gemma-4 31B)较长上下文的极限压榨者。
- 追求稳定长效并发的人群: 那些不仅需要大上下文,还希望后台稳健挂载多个实例并行工作的极客。
不太建议开启的人群:
- 短上下文聊天党: 你的对话很少超过8K token,开TurboQuant纯属浪费算力。
- 延迟极度敏感者: 对首Token响应时间和绝对推理精度有苛刻要求(0容忍),且上下文需求不长的人。
最终结论
文章看到这里,结论已经呼之欲出。
对于那些只想体验简单对话的用户,TurboQuant确实像是个可有可无的极客玩具。但对于致力于在本地环境中挖掘大语言模型生产力的用户来说,oMLX v0.3.4+ 结合 TurboQuant 绝对是一次里程碑式的实用进步。
尤其在搭配Gemma-4这样原生具备256K长上下文底子的模型时,TurboQuant扮演的不是“加速器”,而是至关重要的“续命血包”。它用微乎其微的质量损失(近乎无损)和极小的运算开销,为你释放了动辄数十GB的宝贵内存空间。这不仅意味着你能跑更长的数据,更意味着长工作流不再随时面临内存雪崩的恐惧。
一句话建议:如果你正在使用oMLX,立刻升级到最新版;如果你的工作流开始频繁报错OOM,毫不犹豫地打开TurboQuant 3-bit开关。
文章来自于"AI修猫Prompt",作者 "AI修猫Prompt"。

