DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块

 DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块

金融界


继2024年底发布一篇新论文后,1月12日晚间,DeepSeek再度发布重磅研究成果,此次论文聚焦大模型的条件记忆模块。DeepSeek在结论中明确指出,这一模块将成为下一代稀疏大模型中不可或缺的核心建模原语。结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测,近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图。

此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于,大模型实际承担着两类性质迥异的任务:一类是需深度动态计算的组合推理任务,另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知识查找机制,只能通过低效计算模拟检索过程——例如在调用固定知识时,模型仍需耗费算力重复推导,既耗时又占用资源。

为破解这一痛点,DeepSeek团队提出将条件记忆作为补充的稀疏性维度,并通过名为Engram的条件记忆模块实现这一构想,以此优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。团队还发现了“U型缩放定律”,该定律表明,在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型。值得关注的是,尽管记忆模块的设计初衷是提升知识检索效率,但团队在通用推理、代码数学等领域均观察到更为显著的性能提升。

通俗而言,当前MoE模型采用统一机制处理推理与固定知识存储两类任务,存在效率低下、算力浪费等问题。此次论文的核心价值在于为大模型实现“分工优化”:通过专属模块各司其职——由“记忆本”式的Engram模块负责固定知识存储,推理模块专注复杂思考,再通过最优比例分配资源,最终实现模型效率与性能的双重提升。DeepSeek在论文中强调,条件记忆将成为下一代稀疏模型的核心建模原语,这也让行业进一步猜测,该技术或正是DeepSeek V4模型的核心技术架构。

此前已有报道称,DeepSeek计划于2月发布新一代旗舰模型V4,内部初步测试显示,其编程能力已超越市场现有顶级模型。不过DeepSeek尚未对此消息作出回应,且报道提及发布计划可能根据实际情况调整。自2024年底发布V3模型后,DeepSeek的下一代旗舰模型便备受行业关注;去年底推出的V3.2小版本更新,曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro。业内普遍认为,V4模型的正式推出有望

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/232581.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>