DeepSeek发布新论文：直指大语言模型记忆力“短板”

股市热点 2026-01-13 12:51:23 来源：新京报作者：网络

AI导读：

DeepSeek发布新论文，提出“条件记忆”概念，旨在解决大语言模型存在的记忆力“短板”问题。论文提出名为Engram的模块，将语言建模任务分为静态模式检索与动态组合推理两大分支。该论文或为DeepSeek下一代模型的发布方向提供了线索。

　　新京报贝壳财经讯（记者罗亦丹）1月12日晚间，DeepSeek发布了一篇新论文，主题为《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直译为基于可扩展查找的条件记忆：大语言模型稀疏性的新维度），梁文锋再度出现在了作者名单最后。这篇论文为北京大学和DeepSeek共同完成。

　　新京报贝壳财经记者浏览发现，这篇论文的核心直指当前大语言模型存在的记忆力“短板”，提出了“条件记忆”这一概念。

　　为了实现“条件记忆”，DeepSeek提出的解决方案是一个名为Engram（直译为：记忆痕迹）的模块，它将语言建模任务拆解为“静态模式检索”与“动态组合推理”两大分支：前者负责实体、固定短语等确定性知识的快速调取，后者则交由Transformer架构专注完成复杂逻辑运算。

　　论文最后表示，“我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。”

　　当前，有不少声音猜测DeepSeek的下一代模型将于春节前发布，复现2025年春节期间盛况。这一背景下，此篇论文或为模型的“庐山真面目”提供了方向。

（文章来源：新京报）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。