DeepSeek V4路线图隐现？梁文锋署名重磅论文发布，聚焦大模型条件记忆模块

玉兰 • 2026-01-13 05:09 • 杂文

金融界

继2024年底发布一篇新论文后，1月12日晚间，DeepSeek再度发布重磅研究成果，此次论文聚焦大模型的条件记忆模块。DeepSeek在结论中明确指出，这一模块将成为下一代稀疏大模型中不可或缺的核心建模原语。结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料，业内普遍猜测，近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图。

此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》（《基于条件查找的条件记忆：大型语言模型稀疏性的新维度》），由DeepSeek与北京大学联合完成，DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于，大模型实际承担着两类性质迥异的任务：一类是需深度动态计算的组合推理任务，另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知识查找机制，只能通过低效计算模拟检索过程——例如在调用固定知识时，模型仍需耗费算力重复推导，既耗时又占用资源。

为破解这一痛点，DeepSeek团队提出将条件记忆作为补充的稀疏性维度，并通过名为Engram的条件记忆模块实现这一构想，以此优化神经计算（MoE）与静态记忆（Engram）之间的权衡关系。团队还发现了“U型缩放定律”，该定律表明，在MoE专家与Engram记忆之间进行混合稀疏容量分配，效果显著优于纯MoE基准模型。值得关注的是，尽管记忆模块的设计初衷是提升知识检索效率，但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升。

通俗而言，当前MoE模型采用统一机制处理推理与固定知识存储两类任务，存在效率低下、算力浪费等问题。此次论文的核心价值在于为大模型实现“分工优化”：通过专属模块各司其职——由“记忆本”式的Engram模块负责固定知识存储，推理模块专注复杂思考，再通过最优比例分配资源，最终实现模型效率与性能的双重提升。DeepSeek在论文中强调，条件记忆将成为下一代稀疏模型的核心建模原语，这也让行业进一步猜测，该技术或正是DeepSeek V4模型的核心技术架构。

此前已有报道称，DeepSeek计划于2月发布新一代旗舰模型V4，内部初步测试显示，其编程能力已超越市场现有顶级模型。不过DeepSeek尚未对此消息作出回应，且报道提及发布计划可能根据实际情况调整。自2024年底发布V3模型后，DeepSeek的下一代旗舰模型便备受行业关注；去年底推出的V3.2小版本更新，曾在多个基准测试中超越OpenAI的GPT-5及Google的Gemini 3.0 Pro。业内普遍认为，V4模型的正式推出有望

版权声明：
作者：玉兰
链接：https://www.techfm.club/p/232581.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

中信证券：站上4100，当下A股的5大要点

< <上一篇

两晋南北朝——恶狗互咬（056）

下一篇>>

搜索内容

DeepSeek V4路线图隐现？梁文锋署名重磅论文发布，聚焦大模型条件记忆模块

取消回复

共有 0 条评论

Ads