正文目录

巨头都死磕大模型，为何IBM 偏偷偷换赛道？押注 LPU，掌控企业 AI 最后一公里！

666

2026-01-08 16:20:19

边缘模型部署

企业级大模型

过去两年，AI 世界的叙事几乎被一个关键词统治：更大的模型。

参数规模一次次被刷新，榜单纪录每个月都在重写，OpenAI、Google 等巨头在“谁更强”的竞赛中不断加码。然而，在企业真实的业务现场，问题往往并不出在模型“够不够大”，而是出在一个更基础、却更致命的环节——AI 跑不跑得起来。

当 AI 从演示走向生产，从概念验证变成日常工具，企业真正卡住的，并不是训练模型，而是如何以可控的成本、可接受的延迟，让模型持续、稳定地给出答案。也正是在这个被忽视的环节，IBM 正在悄然调整自己的 AI 战略重心。

当巨头追逐更大模型，企业真正被“推理”拖住了

当 OpenAI、Google 以及其他科技巨头不断追逐更大的模型，并且几乎每个月都宣称刷新一次基准测试分数纪录时，企业却面临着一个更安静、但也更为现实的问题：推理（inference）。

运行已经训练完成的 AI 模型，用来分析新数据并生成答案，这一过程在理论上听起来很简单，但在大规模应用时，却是大多数公司真正跌倒的地方。GPU 最初是为图形渲染而设计的，在原始算力方面表现出色，但在承受数以百万计的实时查询时却力不从心。这会导致成本飙升、延迟问题以及巨大的能源消耗。

而 IBM —— 一个长期将自己定位为企业计算架构师的公司 —— 正在切入这一空白。它并没有继续追逐更大的模型，而是将自己定位为 AI 的赋能者，即把智能转化为执行力的连接层。其最新的生态系统押注，聚焦于现代 AI 中一个看不见却至关重要的基础：推理基础设施。

通过与 Anthropic 以及以语言处理单元（LPU）闻名的加州初创公司 Groq 建立新的合作关系，IBM 试图重新构想企业级 AI 在生产环境中的运作方式。

IBM 高级副总裁兼首席商务官 Rob Thomas 在接受我采访时表示：“数据无处不在，分布在多云、边缘、本地环境中，企业级 AI 必须能够跨混合环境运行。我们采用分层的模型策略，在 IBM 自研创新与战略合作伙伴之间取得平衡，以加速成果落地。我们会利用不同类型的模型，比如 Granite 这样的中小语言模型、来自 Mistral 和 Meta 等合作伙伴的大语言模型，以及通过与 Anthropic 合作获得的前沿模型，并为每一个使用场景选择最合适的模型。”

随着 Groq 的推理硬件被集成进 IBM 的 watsonx Orchestrate，IBM 声称，企业运行智能体 AI 系统的速度可比传统基于 GPU 的方案快至五倍，同时具备更高的成本效率。

Groq 首席执行官兼创始人 Jonathan Ross 表示：“AI 仍然停留在‘拨号上网’时代——模型可以给出准确的答案，但要给出高质量、研究级别的答案，往往意味着需要等待长达 10 分钟，让一个大语言模型或智能体‘思考’完成。更快的处理速度也会推高使用频率，从而增加算力成本，因此，速度必须与成本效率相结合。”

Ross 解释说，传统 GPU 擅长并行、批处理型工作负载，例如模型训练。但在低延迟、多步骤推理方面——也就是智能体 AI 所需的那种动态执行能力——GPU 表现不佳。LPU 采用一种由软件控制的流水线式架构，以确定性的方式推动数据流动，从而消除 GPU 中常见的瓶颈，并实现实时 AI 性能。

他对我表示：“智能体 AI 通过将一个任务拆解为一系列明确的步骤，并按顺序执行每一个步骤，从而提升大语言模型的输出效果。这种‘按步骤思考’的方法可以带来更好的结果，但同时也会成倍增加所需的计算量，从而推高延迟和成本。GPU 是用于训练、也就是创建 AI 模型的合适工具；而 LPU 则是用于推理、也就是运行 AI 模型的合适工具。”

IBM 的 AI 赋能技术栈内部

随着企业逐步走出 AI 实验阶段并进入生产阶段，IBM 正在通过其 watsonx 平台，整合现代 AI 技术栈中的三个关键层级：智能、推理与治理。

在智能层，IBM 与 Anthropic 的合作将 Claude 模型引入技术栈，提供具备透明度的推理能力——这对需要可解释系统、而非不透明“黑箱”的受监管行业而言，是一项关键优势。在其下方，Groq 的确定性 LPU 取代了高能耗的 GPU，在大规模场景中提供低延迟推理能力，以匹配真实世界的企业级工作负载。整个系统的底座是 IBM 的治理基础，由 Red Hat OpenShift 提供支持，确保每一次 AI 交互在混合环境和本地部署中都保持可审计、合规且安全。

Forrester 高级云分析师 Dario Maisto 对我表示：“截至目前，IBM 的战略似乎正在奏效。至于它是否能在长期内推动可持续增长，则是另一个问题。从积极的一面来看，这种工作方式让 IBM 能够更灵活、更机会主义地利用新的 AI 解决方案和合作伙伴关系。”

IBM 表示，其战略已经在具有高推理需求的客户中获得了实际进展。例如，一家大型健康保险服务商使用 watsonx Orchestrate 同时处理数千条来自患者和医疗服务提供方的查询。通过在 Groq 的 LPU 上运行 AI 智能体，该系统如今能够以几乎零延迟的方式提供实时答案，从而帮助提升患者满意度并加快理赔审批流程。

Thomas 补充道：“我们的角色是为企业提供将 AI 落地运营所需的完整技术栈。我们的 Watsonx 产品组合可以在核心工作流程中加速投资回报率。我们的 Granite 模型在那些需要控制力和定制化的企业专用任务中依然至关重要。而像 Anthropic 这样的合作伙伴所提供的前沿模型，则在不断拓展可能性的边界。展望三年后，我相信 IBM 将成为让 AI 在整个企业技术体系中真正运作起来的赋能层。”

IBM 的模块化战略 vs. 超大规模云厂商的主导地位

下一场 AI 竞赛，可能取决于谁能以最智能的方式部署 AI，而 IBM 正在绘制一条不同的路线。当微软和 Google 围绕各自的基础模型和云平台构建高度一体化的生态系统时，IBM 的战略从一开始就被设计为模块化和混合式，刻意避免生态锁定。

微软在很大程度上依赖 OpenAI 的前沿模型，将 GPT Copilot 深度嵌入 Microsoft 365、Azure、GitHub 和 Windows。据报道，微软目前大约持有 OpenAI 约 27% 的股份，在最近一次资本重组中的估值约为 1350 亿美元。这一持股关系形成了强大的正反馈循环，既强化了模型能力，又巩固了企业客户黏性，并推动其在 2025 年第三季度实现了约 1230 亿美元的年化云收入规模。

Google 则走向纵向一体化，通过自有的 Gemini 模型和开源的 Gemma 模型，为 Vertex AI 以及搜索、Android 等平台提供动力。其 TPU 以及对数据的控制能力，使其能够实现对 AI 技术栈的端到端掌控，并贡献了约 610 亿美元的云收入。

相比之下，IBM 的关注点在于编排，而非所有权。其 watsonx 平台和小语言模型（SLM）支持混合和本地环境部署，而 Red Hat OpenShift 则使其能够跨云或在安全隔离的系统中进行部署。在约 2% 的云市场份额背景下，IBM 正在加倍投入下一代推理能力与可靠性。

Rafay 的首席执行官兼联合创始人 Haseeb Budhani 表示：“每一家超大规模云厂商都希望掌控入口，而企业则希望在不同云、主权区域以及边缘站点之间保持自由。真正的赢家，是那个能让这种体验在任何地方都感觉一致的平台——无论是在公有云、本地部署，还是新型云环境中。这是一个非常高的门槛。如果 IBM 能跨过去，那很好；如果不能，多云就仍然只停留在 PPT 上，而不是一个真正的系统。”

Budhani 还补充道，在 AI 基础设施领域，决定胜负的将是经济性，而不是硬件本身。“GPU 并不会自己卖出去，真正卖的是体验，”他说。当编排能力能够提升资源利用率，并实现可预测的支出，尤其是在主权云和区域云环境中，采购决策就会发生转变。

在 AI 军备竞赛中被认为谨慎多年之后，IBM 如今正试图通过掌控让 AI 变得切实可用的基础设施，来开辟一个领导地位。

Thomas 表示：“实验很容易，生产很难。企业在尝试通过 AI 实现投资回报率时，会遇到三个关键挑战：速度、成本和可靠性。而这正是 IBM 的完整技术栈（包括我们与 Groq 的新合作）改变游戏规则的地方。我们为客户提供选择权。”

以上内容不代表本平台立场，仅供读者参考