Gemini 3.1 Flash Live发布！谷歌最高质量音频模型上线

阿司匹林

2026-03-27 17:55:31

语音识别（ASR）

语音合成（TTS）

语音交互

多模态交互

实时信息查询

复杂计算

对话式 AI

昨日，谷歌正式发布了Gemini 3.1 Flash Live（预览版）。

这是谷歌目前最高质量的音频与语音模型，对实时对话和语音优先进行了深度优化。Gemini 3.1 Flash Live的核心升级点体现在低延迟、高精度音调理解、噪声环境适应以及长上下文支持。根据官方文档，新模型比前代Gemini 2.5 Flash Native Audio响应速度更快，几乎达到了人类真实的对话速度。目前，该模型已通过Gemini Live API在Google AI Studio提供预览测试。

在ComplexFuncBench Audio基准测试中，它拿下了90.8%的高分；在Big Bench Audio中也获得了95.9%的成绩。

有网友调侃，谷歌这次终于不挤牙膏了，这绝对是语音助手的大提升。

去“机器味”

过去，AI开口说话太像机器了。传统的语音交互技术分为三步：先用语音识别把声音转成文字，再用自然语言处理理解文字并生成回复，最后用文本转语音读出来。这个过程延迟高，声音在转换成文字的过程中，情绪、语速全丢掉了。

但Gemini 3.1 Flash Live的变化在于，它是原生音频到音频处理，直接跳过了文字转换的中间商，直接听声音，给声音。

在官方的实测演示，第一个场景是测试模型的音调理解能力。演示中，用户在路边遇到汽车爆胎，用非常沮丧、焦急的语气对着手机问：“我的车胎爆了，帮我5分钟内换轮胎！快点！”

如果换作以前的AI，大概率会引用汽车维修手册。但Gemini 3.1 Flash Live在听到语音的瞬间，没有长篇大论，而是瞬间调快语速，用干练、安抚的语气直接给出步骤：“别慌，先打双闪，拿出千斤顶放在车底金属骨架处，我一步步教你。”

听话听音，新模型不仅听懂了字面意思，更准确识别了音高、语速和情感表达，并在用户困惑或焦急时动态调整了回应的语气和长度。

抗噪与长记忆

那么在真实的、嘈杂的环境下，它还能听得清吗？

俗话说“真金不怕火炼”，为了考验Gemini 3.1 Flash Live的背景噪声过滤能力，测试环境被设定在车水马龙的马路上，旁边还有电视机播放新闻的声音。在这样的嘈杂场景下，Gemini 3.1 Flash Live依然表现稳定。它能够精准剥离无关的交通声和电视背景音，死死锁定用户的声音指令，没有出现识别乱码或答非所问的情况。

关于长上下文记忆能力，官方数据显示，在Gemini Live中，新模型可维持对话上下文的时间是之前的两倍。塔猴在开发者社区看到一个测试：用户用语音和AI一起“头脑风暴”写小说。用户和它连续聊了半个多小时，突然打断它说：“不对，我们回到刚才男主角出门那个情节，改成他带了一把伞。”新模型能瞬间接上半小时前的思路，完全不需要用户重新复述前面的剧情。

此外，在复杂指令与函数调用方面，有开发者输入了复杂指令测试：“帮我查一下明天去上海的航班天气，然后给我的日历加上早上9点的会议，最后发一封邮件给李总。”

Gemini 3.1 Flash Live稳稳当当地在后台调用了天气API、日历API和邮件系统，多步指令跟随准确，一气呵成。

谷歌的生态大招

这不仅在技术上的一次创新，更是谷歌在下一招大棋。

伴随新模型的发布，谷歌宣布在全球超过200个国家和地区正式扩展“Search Live”功能。目前，已经全量集成到Gemini App和移动端的Google应用中。这标志着移动搜索从传统的文本/图像检索，全面转向了实时多模态交互。

当用户买了一个宜家家具却看不懂图纸时，可以直接打开手机摄像头对准一堆木板和螺丝，直接开口问：“这块带三个洞的木板应该装在哪？”Gemini 3.1 Flash Live结合摄像头传来的实时视频流（视觉）和用户的语音（听觉），在低延迟下实时语音回答：“把它翻过来，对准左边的凹槽。”同时，屏幕上还会同步弹出相关的网页链接和视频教程。这种语音无缝对接的体验，降低了用户的搜索门槛，不用去看文字中的关键词了。

如今，大模型正朝着实时交互、降低延迟、提升智能体执行能力等实用方向升级。不仅是谷歌，整个行业都在内卷，比如Luma AI推出的Uni-1模型，OpenAI整合ChatGPT与浏览器功的超级应用。

面对竞争压力，谷歌此次发布的Gemini 3.1 Flash Live，以及全球铺开Search Live，是一次关键的防御与反击。（微信公众号：Tahou_2025）

关注塔猴公众号，扫码下载塔猴APP，查看更多干货

扫码加入官方社群

以上内容不代表本平台立场，仅供读者参考