DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
DeepSeek V4路线图隐现?梁文锋署名重磅论文发布,聚焦大模型条件记忆模块
金融界
继2024年底发布一篇新论文后,1月12日晚间,DeepSeek再度发布重磅研究成果,此次论文聚焦大模型的条件记忆模块。DeepSeek在结论中明确指出,这一模块将成为下一代稀疏大模型中不可或缺的核心建模原语。结合此前“DeepSeek下一代旗舰模型V4将于春节前后发布”的爆料,业内普遍猜测,近期连续披露的研究成果或已勾勒出V4模型的核心研究路线图。
此次发布的论文题为《Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models》(《基于条件查找的条件记忆:大型语言模型稀疏性的新维度》),由DeepSeek与北京大学联合完成,DeepSeek创始人梁文锋亦位列作者名单。论文的核心洞察在于,大模型实际承担着两类性质迥异的任务:一类是需深度动态计算的组合推理任务,另一类是静态知识的检索任务。而现有Transformer架构缺乏原生知识查找机制,只能通过低效计算模拟检索过程——例如在调用固定知识时,模型仍需耗费算力重复推导,既耗时又占用资源。
为破解这一痛点,DeepSeek团队提出将条件记忆作为补充的稀疏性维度,并通过名为Engram的条件记忆模块实现这一构想,以此优化神经计算(MoE)与静态记忆(Engram)之间的权衡关系。团队还发现了“U型缩放定律”,该定律表明,在MoE专家与Engram记忆之间进行混合稀疏容量分配,效果显著优于纯MoE基准模型。值得关注的是,尽管记忆模块的设计初衷是提升知识检索效率,但团队在通用推理、代码及数学等领域均观察到更为显著的性能提升。
通俗而言,当前MoE模型采用统一机制处理推理与固定知识存储两类任务,存在效率低下、算力浪费等问题。此次论文的核心价值在于为大模型实现“分工优化”:通过专属模块各司其职——由“记忆本”式的Engram模块负责固定知识存储,推理模块专注复杂思考,再通过最优比例分配资源,最终实现模型效率与性能的双重提升。DeepSeek在论文中强调,条件记忆将成为下一代稀疏模型的核心建模原语,这也让行业进一步猜测,该技术或正是DeepSeek V4模型的核心技术架构。

共有 0 条评论