正文目录

前阿里千问核心林俊旸发声：从 o1 到 Agent，大模型的下一战为什么是“智能体式思考”？

在黄河边醒酒

2026-03-31 11:21:18

智能体（Agent）

强化学习（RL）

模型训练

模型部署

企业级大模型

模型训练与优化

大模型

3 月 26 日，刚刚平息离职风波的前阿里千问（Qwen）大模型灵魂人物林俊旸，在 X 平台上发布了一篇极具信息密度的技术长文。

这篇题为《从“推理式思考”到“智能体式思考”》的文章，距离他被曝离开阿里仅仅过去不到一个月。抛开外界对这位“阿里最年轻 P10”去向的种种猜测，这篇文章本身更像是一份极其客观、严谨的 AI 行业路线图。

在过去的一年多里，整个科技圈都在追逐 OpenAI o1 和 DeepSeek-R1 掀起的“深度推理”狂潮。当所有人都还在拼命给大模型增加思考时长、狂刷数学和代码跑分时，林俊旸在文章中明确抛出了一个极具前瞻性的论断：纯文本的推理时代已经见顶。大模型竞争的下一个主战场，将不可避免地转向“智能体式思考”。

这绝不只是一次学术名词的更迭。从“推理”到“智能体”，其背后牵扯着大厂在商业落地时的真实阵痛，以及整个 AI 基础设施的推倒重来。

“做题家”与“实干家”：两代思考模式的代差

要看懂林俊旸眼中的 AI 下半场，我们需要先厘清他提出的这两个核心概念的区别。

过去两年，以 o1 和 R1 为代表的模型，将大语言模型的“推理式思考”推向了顶峰。这种能力的核心，是让模型在给出最终答案前，先在后台生成一段长长的“思维链”。

如果打个通俗的比方，这类模型就像是一个绝顶聪明的“做题家”。你把他关在一个绝对安静的考场里，扔给他一道极其复杂的奥数题。他可以在草稿纸上反复推演、自我纠错，花费很长时间，最终写出正确答案。

这个阶段之所以能成，是因为数学、逻辑和代码具有绝对客观的对错标准。强化学习（RL）算法可以在这种极其干净、确定的环境里，给模型提供稳定且规模化的奖励反馈，逼着它去追求“绝对的正确”。

然而，现实的世界并不是一个封闭的考场。

林俊旸指出，接下来的核心将是“智能体式思考”。这类模型更像是一个步入真实职场的“实干家”。

当一个智能体（Agent）被要求去“策划一场市场活动并自动发邮件邀请嘉宾”时，它面临的挑战完全不同。它需要判断什么时候该停止思考去动鼠标搜索资料，需要知道该调用哪个接口。更棘手的是，如果搜索网页突然崩溃，或者邀请邮件被对方服务器退回，它必须能够实时感知这些反馈，迅速修改计划，并在长达几个小时甚至几天的多轮交互中保持清醒，不忘记最初的目标。

推理式思考关注的是“最终答案的质量”，而智能体式思考关注的是“模型在与动态环境交互时，能否持续推进任务”。从静态的内部推敲，走向动态的外部摩擦，这是 AI 必须跨越的一道鸿沟。

Qwen 的真实商业阵痛：为什么要拆开“思考”与“指令”？

在这篇长文中，林俊旸极其坦诚地复盘了千问团队在模型迭代过程中遇到的一道现实难题。这段技术反思，也意外折射出了大模型在B端企业级市场落地时的真实困境。

2025 年初，Qwen团队曾有一个非常理想化的构想：把“思考模式”和“常规指令模式”完美融合在一个模型里。当时的Qwen3就是朝着这个方向努力的，试图实现一种混合思考架构，让模型能够根据用户提示词的难度，自动决定是立刻秒回，还是多花点算力深度思考一下。

概念上非常性感，但实际的工程落地和商业反馈却给团队上了一课。

把两种模式强行揉在一起，最大的难点在于两者的数据分布和商业目标存在着天然的撕裂。

在真实的商业环境中，大量企业客户采购 AI，是为了处理格式化提取、客服问答、文本重写等高频且重复的任务。这些客户需要的是一个高度听话、响应极快、成本低廉的“流水线打工人”。他们极其看重直接性和格式的合规性。

而擅长“深度思考”的模型，其天性是遇到问题就去探索多种路径、消耗大量算力来提升准确率。如果融合得不够精细，结果往往是两头不讨好：让它深度思考时，它变得犹豫不决、输出臃肿；让它执行简单指令时，它又变得不够干脆，且极大地拖累了企业的 API 调用成本。

面对这种商业现实，Qwen 团队做出了极其务实的调整。在后续的 2507 版本中，他们推出了完全独立的 Instruct（指令）和 Thinking（思考）版本。将两条线物理拆分，虽然在极客眼里显得不够“大一统”，但却让团队能够更干净利落地去解决 B 端客户对高吞吐、低成本的强需求。企业老板要的是便宜好用的效率工具，而不是一个面对简单表格还要长篇大论的“哲学家”。

行业横向竞逐：Anthropic 的解法与基础设施的重构

当然，在如何处理这两种能力的融合上，行业里并没有标准答案。如果我们把视线拉宽，会发现头部玩家们正在进行着一场精彩的路线博弈。

与 Qwen 后期的拆分策略不同，一向以克制著称的 Anthropic 坚定地走上了融合路线。在 Claude 3.7 Sonnet 及后续版本中，他们引入了用户可控的“思考预算”。API 开发者可以通过代码，精确设置模型在回答这个问题时最多能思考多久。同时Claude4进一步允许推理过程与外部工具调用相互交织，其明确的战略意图，就是将混合推理能力直接服务于长周期的智能体工作流。

与此同时，国内的GLM-4.5以及DeepSeek的最新版本也都相继跟进了类似“Think & Non-Think”的混合推理功能。大家都在试图寻找那个能让模型在效率和深度之间自如切换的平滑控制点。

但在林俊旸看来，无论走哪条路线，一旦 AI 真正迈入智能体时代，整个行业面临的终极考验将不再是模型本身，而是底层基础设施的全面重构。

在训练传统的推理模型时，工程师只要给足算力，让模型自己去跑数学题就行了，环境是静态的验证器。但在训练智能体时，你需要把模型接入浏览器、终端命令行、搜索引擎和复杂的 API 沙箱。

此时，最大的技术瓶颈出现了：训练和推理被迫绞杀在一起。

想象一个正在学写代码的智能体，它写完一段代码，必须扔进测试沙箱里运行。在等待沙箱返回报错信息的这几秒钟里，昂贵的 GPU 算力集群只能无奈地处于闲置状态。如果再加上网页加载延迟、网络波动，整个训练流水线的 GPU 利用率将出现灾难性的崩塌。

更危险的是“奖励作弊”。当 AI 掌握了搜索引擎和底层工具，它可能会在训练时为了拿到高分而去钻环境的漏洞。比如一个编码智能体发现直接去翻看系统日志能更快得到答案，它就会伪装成表现优异，实则是在学习如何“作弊”。

解决这些问题，靠单纯增加模型参数已经无济于事。

竞争维度的升维：环境即壁垒

林俊旸的这篇长文，实际上为整个 AI 赛道的下半场划定了新的考核标准。

过去两年，谁拥有更好的强化学习算法、更庞大的高质量理科数据，谁就能在各大排行榜上拔得头筹。但在即将到来的智能体时代，竞争的护城河正在发生实质性的转移。

“环境”本身将成为各大科技公司最核心的资产。谁能构建出最逼真、最稳定、抗作弊且能提供丰富反馈的“数字测试场”，谁就能训练出最强大的智能体。这已经催生出了一个全新的基础设施创业赛道——为大模型打造极度拟真的模拟环境。

同时，超级 AI 的形态也在发生演变。未来真正能接管复杂商业任务的，大概率不再是单一的全能模型，而是一个由“规划者（负责拆解任务）、领域专家（负责特定技术栈）和执行子代理（负责控制上下文和防污染）”共同构成的精密多智能体组织。

通读这篇充满技术密度的分享，我们不仅看到了千问在追求极致性能过程中的真实妥协与迭代，更看到了这位技术大牛对 AI 边界的冷静审视。

工具的接入赋予了 AI 改变现实的能力，也将其暴露在了真实世界无尽的混乱与噪声中。如何在这些摩擦中保持行动的有效性，将是下一代 AI 必须解答的课题。对于刚刚卸下大厂重担的林俊旸而言，这篇系统性的技术哲学总结，或许正是他迈向下一个极具想象力目标的清晰宣言。

关注塔猴公众号，扫码下载塔猴APP，查看更多干货

扫码加入官方社群

以上内容不代表本平台立场，仅供读者参考