正文目录

vLLM 重要更新

2025-12-31 10:48:34

开源大模型

模型部署

vLLM 作为目前最受欢迎的开源 LLM 推理和服务框架，近期发布了一系列重大更新。本文将详细解读 vLLM 团队在2025年12月密集发布的六项核心技术进展，涵盖路由负载均衡、推测解码、幻觉检测、多模态服务、语义路由及大规模部署等关键领域。

1. vLLM Router：高性能智能负载均衡器

发布日期：2025年12月13日

在大规模生产环境中，高效管理请求分发至多个模型副本至关重要。传统负载均衡器往往缺乏对 LLM 推理有状态特性（如 KV 缓存）的感知，无法处理复杂的服务模式（如 Prefill/Decode 分离）。

核心架构

vLLM Router 是一款专为 vLLM 打造的高性能、轻量级负载均衡器，采用 Rust 构建以实现最小开销。它作为智能、状态感知的负载均衡器，位于客户端和 vLLM 工作节点集群之间。

vLLM Router 架构示意图

智能负载均衡策略

vLLM Router 提供多种负载均衡算法：

策略	特点
一致性哈希	确保相同路由键的请求"粘性"路由到同一工作节点，最大化 KV 缓存复用
Power of Two	低开销随机选择策略，提供优秀的负载分配
轮询 & 随机	无状态负载分配的标准策略

原生 Prefill/Decode 分离支持

Router 作为 vLLM 最先进服务架构的编排层：

智能将新请求路由到 Prefill 工作组
完成后，将请求状态定向到适当的 Decode 工作节点进行 token 生成
支持 NIXL 和 NCCL-based 分离后端

性能基准测试

DeepSeek V3 基准测试

Llama 3.1 8B（8 Prefill pods + 8 Decode pods）：

vLLM Router 吞吐量比 llm-d 高 25%，比 K8s 原生负载均衡器高 100%
TTFT 比 llm-d 快 1200ms

DeepSeek V3（TP8 配置）：

吞吐量比 K8s 原生负载均衡器高 100%
TTFT 比 llm-d 和 K8s 原生快 2000ms

2. Speculators v0.3.0：推测解码训练支持

发布日期：2025年12月13日

贡献团队：Red Hat AI 模型优化团队

什么是推测解码？

推测解码允许 LLM 在单次前向传播中生成多个 token。它利用一个小型"草稿"模型与完整的"验证"模型配合工作：

Eagle3 架构

工作原理：

草稿模型快速自回归预测多个 token
验证模型并行处理这些 token
验证器决定是否接受每个 token
被拒绝的 token 及后续序列将被丢弃

优势：

最终响应与仅使用验证模型完全一致，无性能降级
验证模型可并行生成多个 token
草稿模型开销极小

端到端训练支持

Speculators v0.3.0 提供 Eagle3 草稿模型的完整训练支持：

数据生成流程

训练流程包括：

使用 vLLM 的离线数据生成
单层和多层草稿模型训练
MoE 和非 MoE 验证器支持

隐状态生成器

一键部署

训练完成后，只需简单命令即可在 vLLM 中运行：

vllm serve RedHatAI/Llama-3.1-8B-Instruct-speculator.eagle3

支持的模型：

Llama (3.1, 3.2, 3.3): 8B 到 70B 参数
Qwen3: 8B, 14B, 32B 参数
Qwen3 MoE: 235B-A22B 参数
GPT-OSS: 20B, 120B 参数
多模态：Llama 4 视觉-语言模型

3. HaluGate：实时幻觉检测管道

发布日期：2025年12月14日

问题背景

幻觉已成为 LLM 生产部署的最大障碍。跨行业场景中（法律、医疗、金融、客服），模型会生成看似权威但经不起推敲的虚假内容。

幻觉问题示例

典型场景：

工具返回正确数据：{"built": "1887-1889", "height": "330 meters"}
LLM 响应却是："埃菲尔铁塔建于1950年，高500米"

HaluGate 两阶段检测管道

HaluGate 架构

阶段一：HaluGate Sentinel（提示分类）

不是每个查询都需要幻觉检测。HaluGate Sentinel 是基于 ModernBERT 的分类器，判断提示是否需要事实验证：

Sentinel 工作流程

需要验证：QA、真实性测试、幻觉基准、信息查询对话
无需验证：创意写作、代码、观点/指令类

准确率达 **96.4%**，推理延迟仅 ~12ms。

阶段二：Token 级别检测 + NLI 解释

Token级检测

与句子级分类器不同，token 级检测能精确识别哪些 token 不受上下文支持：

输入: [CLS] context [SEP] question [SEP] answer [SEP]

↓

ModernBERT 编码器

↓

Token 分类头 (每个 token 二分类)

↓

标签: 0 = 支持, 1 = 幻觉

NLI 解释层

为什么采用集成方法？ Token 级检测单独仅达 59% F1；两阶段方法将平庸的检测器转化为可操作系统：LettuceDetect 提供召回率，NLI 提供精度和可解释性。

性能表现

延迟对比

方法	延迟	成本
LLM-as-Judge (GPT-4)	500-3000ms	$0.03/请求
HaluGate	50-125ms	固定 GPU 成本

4. 编码器解耦（EPD）：多模态模型服务优化

发布日期：2025年12月15日

贡献团队：vLLM 多模态工作流组

问题动机

现代大型多模态模型（LMM）引入了独特的服务瓶颈：在任何文本生成开始之前，所有图像必须由视觉编码器（如 ViT）处理。

EPD 架构图

传统方案的问题：

编码器在 GPU 上运行时，Decode 阶段必须等待
图像密集型请求会阻塞纯文本请求
编码器利用率不均导致资源浪费

解耦方案的三大优势

工作流程图

1. 流水线执行与消除干扰

E → P D (请求 1)

E → P D (请求 2)

E → P D (请求 3)

请求 N 的编码可在请求 N-1 预填充/解码时运行
纯文本请求完全绕过编码器
系统变为流水线并行，提升吞吐量

2. 独立细粒度扩展

根据多模态图像量扩展编码器 GPU
根据请求率和输出长度扩展 Prefill/Decode GPU

3. 编码器输出缓存与复用

常用图像（logo、图表、产品图）的嵌入只计算一次
缓存命中的请求编码成本为零，直接降低 TTFT

性能测试结果

测试环境：4×A100 80G，模型：Qwen3-VL-4B-Instruct

短文本工作负载

短文本工作负载（~400 tokens）：

单图：goodput 小幅提升（23 → 24 QPS）
四图：goodput 翻倍（6 → 12 QPS）
P99 TTFT/TPOT 通常降低 20-50%

长文本工作负载

长文本工作负载（~2000 tokens）：

EPD 保持 18/11/9/8 QPS vs 基线 8/4/4/4 QPS — 2-2.5倍 goodput
有效解码吞吐增加 10-30%

NPU 测试结果

硬件可移植性： 在华为昇腾 NPU（4×Ascend 910B 32G）上也展现了相同的架构级收益。

5. AMD × vLLM 语义路由器：混合模型智能协作

发布日期：2025年12月16日

贡献团队：AMD 与 vLLM 语义路由器团队

从单模型到混合模型的转变

混合模型架构

在混合模型（Mixture-of-Models）世界中，企业 AI 栈通常包括：

路由 SLM：分类、路由和策略执行
多个 LLM 和领域专用模型（代码、金融、医疗、法律）
工具、RAG 管道、向量搜索和业务系统

VSR 核心能力

VSR 核心功能

1. 基于信号的 Multi-LoRA 路由

路由策略	描述
关键词路由	快速确定性的模式匹配
领域分类	意图感知的适配器选择
嵌入语义相似度	基于语义理解的细粒度路由
事实检查路由	高风险查询路由到专门验证管道

2. 跨实例智能

Response API：集中存储实现有状态多轮对话
语义缓存：通过跨实例向量匹配显著减少 token 使用

3. 企业级护栏

企业护栏

PII 检测：防止敏感信息泄露
越狱防护：阻止恶意提示注入
幻觉检测：验证关键领域的响应可靠性
超级对齐：确保 AI 系统在向 AGI 能力扩展时保持与人类价值观对齐

AMD GPU 部署路径

部署路径

两种部署方式：

基于 vLLM 的推理：在 AMD GPU 上运行完整推理
轻量级 ONNX 路由：仅路由逻辑，最小化资源占用

6. 大规模服务：DeepSeek @ 2.2k tok/s/H200

发布日期：2025年12月17日

V1 引擎完成迁移

在 v0.11.0 中，vLLM V0 引擎的最后代码被移除，标志着向改进的 V1 引擎架构的完全迁移。这一成就离不开 vLLM 社区 1,969 位贡献者的努力。

性能突破

Prefill 吞吐

Decode 吞吐

社区基准测试（Coreweave H200 集群，Infiniband + ConnectX-7 NICs）显示：

生产级多节点部署达到 2.2k tokens/s 每 GPU
相比早期 1.5k tokens/s 有显著提升

核心组件

Wide-EP（专家并行）

Wide-EP Token 路由

DeepSeek-V3 部署的两大考虑：

稀疏专家激活：DeepSeek-R1 每次前向传播仅激活 37B/671B 参数
KV 缓存管理：张量并行对 MLA 注意力架构并非最优

KV 缓存对比

Wide-EP 结合 EP 与数据并行（DP），最大化 MLA 架构的 KV 缓存效率。

双批次重叠（DBO）

DBO 优化前

优化前： MoE 调度/组合部分的通信开销占用大量时间

DBO 优化后

优化后： 微批次工作线程交替执行，重叠计算与通信，提升 GPU 利用率

专家并行负载均衡（EPLB）

EPLB 动画

MoE 专家层在训练时针对平衡负载优化，但推理时实际工作负载可能导致不均衡。EPLB 动态调整逻辑到物理专家的映射。

分离式服务（Disaggregated Serving）

分离式服务

由于专家分布在各 rank 上，单个计算密集型 prefill 请求可能延迟整个 EP 组的前向传播。分离式服务放大了解耦的收益。

部署方案

方案	特点
llm-d	Kubernetes 原生分布式推理服务栈
Dynamo	高吞吐低延迟生产部署，支持 KV 感知路由
Ray Serve LLM	模块化部署，无缝集成 Ray 生态

总结

vLLM 在2025年12月的更新展现了其在大规模 LLM 推理领域的持续创新：

vLLM Router 解决了生产环境中的智能负载均衡问题
Speculators v0.3.0 让推测解码从研究走向生产
HaluGate 提供了实时、低延迟的幻觉检测能力
EPD 通过编码器解耦优化多模态模型服务
AMD × VSR 构建了混合模型时代的智能控制面
大规模服务优化 实现了 2.2k tok/s/H200 的突破性性能

这些技术进展共同推动 vLLM 成为企业级 AI 基础设施的核心组件，为构建可扩展、可信赖、高性能的 AI 应用提供了坚实基础。

以上内容不代表本平台立场，仅供读者参考