正文目录

DeepSeek 偷偷更新了！上下文飙到 100 万 token，V4 春节见？

在黄河边醒酒

2026-02-13 16:22:53

大模型

文章摘要

100 万 token 的上下文窗口已经上线，deepseek V4 预计春节期间发布

DeepSeek 又搞事情了。

2 月 11 日，多位用户发现 DeepSeek 在网页和 App 端悄悄更新了版本——上下文窗口从原来的 128K 直接跳到了 100 万 token（1M）级别。

这是什么概念？《三体》三部曲加起来 90 万字，现在 DeepSeek 可以一口气读完全集，然后回答你关于三体世界的任何问题。

而这次更新，很可能只是个开胃菜。传闻中的 V4 旗舰模型，预计将在春节期间（2 月中旬）正式发布，带来两项底层架构创新——mHC 和 Engram，直接瞄准中国大模型的算力芯片和内存瓶颈。

100 万 token 有多强？实测《三体》全集

先说这次偷偷上线的更新。

实测发现，DeepSeek 在问答中确认自己现在支持 100 万 token 的上下文，可以一次性处理超长文本。此外，知识库截止时间也更新到了 2025 年 5 月。

不过新版本目前不支持视觉输入，也不具备多模态识别能力——专注做好长文本处理这一件事。

实测：《罪与罚》42 万字，几分钟搞定

提交了超过42万 token 的《罪与罚》小说文档，DeepSeek 可以正常识别和分析文档内容。

这意味着什么？意味着你可以把整本书、完整的研究报告、几十页的法律文件一次性丢给 DeepSeek，让它帮你分析、总结、提炼关键信息——不用再分段处理，不用担心上下文丢失。

100 万 token 在行业里什么水平？

目前能把上下文推到 100 万级别的模型并不多，谷歌的 Gemini 系列和 Anthropic 的 Claude Opus 4.6 已经率先实现。

DeepSeek 这次跟上了第一梯队，而且值得注意的是，它在成本控制上一直比国际主流模型更有优势。100 万 token 的长文本处理，成本会是多少？这个答案可能会让很多人惊喜。

V4 春节见？两大技术创新曝光

这次的 100 万 token 更新，很可能只是为 V4 发布做铺垫。

据科技媒体 The Information 爆料，DeepSeek 将在今年 2 月中旬农历新年期间推出新一代旗舰 AI 模型 DeepSeek V4，将具备更强的写代码能力。

而野村证券在 2 月 10 日发布的研报中指出，V4 不会像去年的 V3 那样引发全球 AI 算力需求恐慌，但它可能通过两项底层架构创新——mHC 和 Engram 技术——进一步降低训练和推理成本，加速中国 AI 价值链创新周期。

技术一：mHC（流形约束超连接）

全称流形约束超连接，主要解决 Transformer 模型在层数极深时，信息流动的瓶颈和训练不稳定问题。

简单说，它让神经网络层之间的对话更丰富、更灵活，同时通过严苛的数学护栏防止信息被放大或破坏。实验证明，采用 mHC 的模型在数学推理等任务上表现更优。

技术二：Engram（条件记忆模块）

这是一个条件记忆模块，设计理念是将记忆与计算解耦。

模型中的静态知识（如实体、固定表达）被专门存储在一个稀疏的内存表中，这个表可以放在廉价的 DRAM 里。当需要推理时，再去快速查找。这释放了昂贵的 GPU 内存（HBM），让其专注于动态计算。

对中国 AI 的战略意义

野村证券指出，这两项技术的结合对中国 AI 发展意义重大：

用更稳定的训练流程（mHC）弥补国产芯片可能存在的不足。

用更聪明的内存调度（Engram）绕过 HBM 容量和带宽的限制。

神秘的 MODEL1，藏在 GitHub 代码里的线索

除了 V4 的传闻，还有一个神秘的新模型代号曝光了——MODEL1。

1 月 21 日，R1 模型发布一周年之际，DeepSeek 官方 GitHub 仓库更新了一系列 FlashMLA 代码。有人用 AI 对全部 114 个代码文件进行分析，发现了一个此前未公开的模型架构标识 MODEL1，共被提及 31 次。

这个 MODEL1 到底是什么？是 V4 的内部代号，还是另一个全新系列？目前没有官方说法，但可以确定的是，DeepSeek 正在同时推进多个模型的研发。

V4 不会引发恐慌，但会加速商业化

野村证券的研报给出了一个明确判断：V4 不会像 V3 那样引发全球 AI 算力需求恐慌。

为什么？

因为全球主要云服务商正全力追逐通用人工智能，资本开支的竞赛远未停歇。V4 的发布不会改变这个大趋势。

但 V4 的真正价值在于：它可能帮助全球大语言模型和 AI 应用企业加速商业化进程，从而缓解日益沉重的资本开支压力。

硬件受益于加速周期

野村认为，V4 最直接的商业影响就是进一步降低大模型的训练与推理成本。这种成本效益的提升将刺激需求，届时中国 AI 硬件公司将受益于加速的投资周期。

软件迎来增值而非被替代

在应用侧，更强大、更高效的 V4 将催生更强大的 AI 智能体。

报告观察到，像阿里通义千问 App 等，已经能够以更自动化的方式执行多步骤任务。这意味着，AI 智能体正从对话工具转型为能处理复杂任务的 AI 助手。

这些能执行多任务的智能体，需要更频繁地与底层大模型交互，这将消耗更多的 Token，进而推高算力需求。因此，模型效能的提升不仅不会杀死软件，反而为领先的软件公司创造了价值。

市场格局变了，一家独大变群雄割据

野村的报告还回顾了 DeepSeek-V3/R1 发布一年后的市场格局。

在 2024 年底，DeepSeek 的两个模型曾占据 OpenRouter 上开源模型 Token 使用量的一半以上。但到了 2025 年下半年，随着更多玩家加入，其市场份额已显著下降。

市场从一家独大走向了群雄割据。这表明，仅凭单一模型的高效，已不足以统治快速演进的开源生态。如今 V4 面临的竞争环境，远比一年前复杂。

从 V3 到 R1，从 128K 到 100 万 token，从 mHC 到 Engram，DeepSeek 的每一次技术突破，都在改变行业对大模型的认知。

去年 V3 的发布，让全球看到了中国在大模型领域的创新能力。今年 V4 的到来，可能会进一步证明：在算力芯片和内存受限的情况下，中国依然可以通过算法创新走出一条自己的路。

100 万 token 的上下文窗口已经上线，V4 预计春节期间发布，MODEL1 在代码里露出端倪——DeepSeek 的动作越来越密集，节奏越来越快。

接下来的故事，会更精彩。

以上内容不代表本平台立场，仅供读者参考