开云 刚刚,DeepSeek偷偷测试新模子:百万token高下文、V4要来了?

开云 刚刚,DeepSeek偷偷测试新模子:百万token高下文、V4要来了?

春节假期还没到,DeepSeek 就先把礼物拆了一半。

2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端也曾悄然启动灰度测试一项关键升级:高下文窗口长度从此前 V3.1 版块的 128K token 平直拉到了 1M(百万)token。DeepTech 考证后阐述,岂论 App 照旧网页端,模子自述的高下文长度均为“1M”。

{jz:field.toptypename/}

与此同期,常识禁止日历也从此前的版块更新到了 2025 年 5 月,在不联网的情况下也曾能够准确回报 2025 年 4 月的新闻事件。不外,这个新版块目下仍然是一个纯文本模子,不营救视觉输入,也不具备多模态识别才调。

以往 DeepSeek V3 系列仅 128K 的高下文容量是一个十分大的短板,本次擢升至 1M 级别可谓杰出宏大,此前,Google 的 Gemini 系列发轫将高下文推至百万级别。DeepSeek 这次平直对标 Gemini 的高下文长度,算是在这个维度上踏进第一梯队。

值得提防的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在提防力解码中枢库)更新中,社区配置者发现了一个代号为“Model 1”的奥妙模子秀美,它在 114 个文献中出现了 28 次,算作独处于面前 V3.2 架构的并行分支存在。

代码层面的痕迹浮现,Model1 在 KV 缓存(Key-Value Cache)布局、寥落性处理和 FP8 数据要津解码等方面与 V3.2 存在昭彰各异,指向了一次架构层面的关键重构,而非粗略的版块迭代。这一发现碰劲出当今 DeepSeek-R1 发布一周年之际,更与此前媒体征引知情东说念主士的报说念,即 DeepSeek 贪图于 2 月中旬春节前后发布下一代旗舰模子 V4 这一音尘相呼应。

{jz:field.toptypename/}

那么,今天灰度测试的这个版块,是否即是传闻中 V4 的前奏?从技巧逻辑上看,有一些拼图也曾摆上了桌面。已往一个多月里,DeepSeek 以陌生的密度一语气发布了两篇紧迫论文,创举东说念主梁文锋均签字参与。元旦今日发表的 mHC(Manifold-Constrained Hyper-Connections,流形约束超流畅)措置了大界限模子历练中的牢固性问题。

紧接着 1 月中旬开源的 Engram 模块则提议了“条目驰念”(Conditional Memory)这一全新寥落性维度,用 O(1) 复杂度的哈希查找取代富贵的神经网络缠绵来完成静态常识检索。Engram 论文中绝顶展示了将高达 100B 参数的镶嵌表卸载到 CPU 内存、GPU 专注推理缠绵的才调,稀少推理延伸低于 3%。

这种“查算分裂”的架构自然适配超长高下文场景,当高下文窗口扩展到百万级别时,传统的全量提防力缠绵资本会急剧扩张,而 Engram 连合客岁 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,表面上不错显赫缩小长序列推理的缠绵支出。

不外,灰度测试毕竟仅仅灰度测试,离认真发布还有距离。目下尚不了了这个版块的具体参数界限(据测试,其响应速率似乎要昭彰快于 671B 的 V3 系列,有东说念主臆想或为 200B 模子)、是否已整合 Engram 和 mHC 等新架构组件,以及它在尺度基准测试上的发挥何如,这些信息 DeepSeek 均未走漏。

客岁 R1 在农历新年前夜横空出世,激发宇宙转念,英伟达市值单日挥发 5930 亿好意思元;而本年 DeepSeek 的故事还在迟缓伸开。百万 token 高下文的灰度测试可能仅仅小年夜的一都开胃菜。果真的年夜饭,大致还在后面。

参考尊府:

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版:何晨龙






Copyright © 1998-2026 开云官方体育app官网™版权所有

zrlyd.com 备案号 备案号: 

技术支持:®开云app  RSS地图 HTML地图