开云刚刚，DeepSeek偷偷测试新模子：百万token高下文、V4要来了？

发布日期：2026-02-15 00:01 点击次数：184

春节假期还没到，DeepSeek 就先把礼物拆了一半。

2 月 11 日，多位用户发现 DeepSeek 的 App 端和网页端也曾悄然启动灰度测试一项关键升级：高下文窗口长度从此前 V3.1 版块的 128K token 平直拉到了 1M（百万）token。DeepTech 考证后阐述，岂论 App 照旧网页端，模子自述的高下文长度均为“1M”。

{jz:field.toptypename/}

与此同期，常识禁止日历也从此前的版块更新到了 2025 年 5 月，在不联网的情况下也曾能够准确回报 2025 年 4 月的新闻事件。不外，这个新版块目下仍然是一个纯文本模子，不营救视觉输入，也不具备多模态识别才调。

以往 DeepSeek V3 系列仅 128K 的高下文容量是一个十分大的短板，本次擢升至 1M 级别可谓杰出宏大，此前，Google 的 Gemini 系列发轫将高下文推至百万级别。DeepSeek 这次平直对标 Gemini 的高下文长度，算是在这个维度上踏进第一梯队。

值得提防的是，就在不到一个月前，DeepSeek 的 GitHub 仓库 FlashMLA（其自研的多头潜在提防力解码中枢库）更新中，社区配置者发现了一个代号为“Model 1”的奥妙模子秀美，它在 114 个文献中出现了 28 次，算作独处于面前 V3.2 架构的并行分支存在。

代码层面的痕迹浮现，Model1 在 KV 缓存（Key-Value Cache）布局、寥落性处理和 FP8 数据要津解码等方面与 V3.2 存在昭彰各异，指向了一次架构层面的关键重构，而非粗略的版块迭代。这一发现碰劲出当今 DeepSeek-R1 发布一周年之际，更与此前媒体征引知情东说念主士的报说念，即 DeepSeek 贪图于 2 月中旬春节前后发布下一代旗舰模子 V4 这一音尘相呼应。

那么，今天灰度测试的这个版块，是否即是传闻中 V4 的前奏？从技巧逻辑上看，有一些拼图也曾摆上了桌面。已往一个多月里，DeepSeek 以陌生的密度一语气发布了两篇紧迫论文，创举东说念主梁文锋均签字参与。元旦今日发表的 mHC（Manifold-Constrained Hyper-Connections，流形约束超流畅）措置了大界限模子历练中的牢固性问题。

紧接着 1 月中旬开源的 Engram 模块则提议了“条目驰念”（Conditional Memory）这一全新寥落性维度，用 O(1) 复杂度的哈希查找取代富贵的神经网络缠绵来完成静态常识检索。Engram 论文中绝顶展示了将高达 100B 参数的镶嵌表卸载到 CPU 内存、GPU 专注推理缠绵的才调，稀少推理延伸低于 3%。

这种“查算分裂”的架构自然适配超长高下文场景，当高下文窗口扩展到百万级别时，传统的全量提防力缠绵资本会急剧扩张，而 Engram 连合客岁 V3.2 中引入的 DSA（DeepSeek Sparse Attention）机制，表面上不错显赫缩小长序列推理的缠绵支出。

不外，灰度测试毕竟仅仅灰度测试，离认真发布还有距离。目下尚不了了这个版块的具体参数界限（据测试，其响应速率似乎要昭彰快于 671B 的 V3 系列，有东说念主臆想或为 200B 模子）、是否已整合 Engram 和 mHC 等新架构组件，以及它在尺度基准测试上的发挥何如，这些信息 DeepSeek 均未走漏。

客岁 R1 在农历新年前夜横空出世，激发宇宙转念，英伟达市值单日挥发 5930 亿好意思元；而本年 DeepSeek 的故事还在迟缓伸开。百万 token 高下文的灰度测试可能仅仅小年夜的一都开胃菜。果真的年夜饭，大致还在后面。

参考尊府：

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版：何晨龙

热点资讯

推荐资讯

友情链接：

zrlyd.com 备案号备案号:

技术支持:®开云app RSS地图 HTML地图

开云 刚刚，DeepSeek偷偷测试新模子：百万token高下文、V4要来了？

开云刚刚，DeepSeek偷偷测试新模子：百万token高下文、V4要来了？