banner
约 5,700 字
19 分钟

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models论文阅读

摘要

DeepSeek与北京大学提出Engram,将经典N-gram嵌入现代化为条件记忆模块,与MoE形成互补的稀疏性新维度。通过U型缩放定律指导稀疏容量分配,Engram-27B在iso-parameter/iso-FLOPs下全面超越纯MoE基线,推理增益甚至超过知识检索增益(BBH+5.0, HumanEval+3.0),并证实该模块等效于增加网络有效深度。

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models论文阅读

写在前面

稀疏性是智能系统的核心设计原则——从生物神经回路到现代大语言模型(LLM),选择性激活一直是扩大模型容量而不等比增长计算成本的关键手段。当前这一原则主要通过MoE(Mixture-of-Experts,混合专家)实现。然而,语言建模中存在一种根本性的二元结构:组合推理(需要深度、动态的计算)和知识检索(处理本地的、静态的、高度固化的模式)。标准Transformer缺乏原生的知识查表原语,被迫用昂贵的计算来模拟检索。

DeepSeek与北京大学合作的这篇论文提出了一个全新的稀疏性维度——条件记忆(Conditional Memory),并通过Engram模块将其实现。Engram将经典的N-gram嵌入思想现代化,在MoE架构之上增加了一个可扩展的稀疏查表机制。本文的核心发现极具启发性:将一部分稀疏容量从条件计算(MoE专家)重新分配给条件记忆(Engram),不仅能提升知识密集型任务,对通用推理和代码/数学的提升甚至更大。

论文方法总览(图由AI辅助绘制)
论文方法总览(图由AI辅助绘制)

速读卡片

项目

内容

论文标题

Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models

作者

Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao, Wenfeng Liang

机构

北京大学 & DeepSeek-AI

发布时间

2026年1月

类型

模型架构 + 缩放定律论文

核心方法

Engram:基于哈希N-gram的条件记忆模块

关键发现

U型稀疏分配缩放定律,最优MoE:Engram分配比 ≈ 75-80%:20-25%

代表模型

Engram-27B(26.7B参数,3.8B激活)vs 纯MoE-27B

推理增益

BBH +5.0, ARC-Challenge +3.7, HumanEval +3.0, MATH +2.4

知识增益

MMLU +3.4, CMMLU +4.0, MMLU-Pro +1.8

长上下文

Multi-Query NIAH: 84.2→97.0; Variable Tracking: 77.0→89.0

系统效率

100B参数Engram卸载至主机内存,吞吐量损失<3%

代码开源

https://github.com/deepseek-ai/Engram

一句话概括

Engram通过将经典N-gram嵌入改造为现代化的条件记忆模块(支持分词器压缩、多头哈希、上下文感知门控和多分支融合),在MoE架构中引入了一个互补的稀疏性维度,由U型缩放定律指导的最优分配策略使Engram-27B在固定参数和计算预算下全面超越纯MoE基线——且推理和代码/数学的增益甚至超过了知识检索的增益,因为Engram通过将浅层从静态知识重建中解放出来,等效地增加了模型的有效深度。

研究问题

语言建模的双重性

语言建模包含两种性质迥异的子任务:

  1. 组合推理(Compositional Reasoning):需要深度、动态的计算来处理复杂逻辑和上下文依赖。

  2. 知识检索(Knowledge Retrieval):大量文本是局部的、静态的、高度固化的——命名实体、惯用表达、公式化模式。N-gram模型的持续有效性证明了这些规律最适合用计算廉价的查表来处理。

Transformer的效率困境

标准Transformer架构缺乏原生的知识查表原语。当模型需要解析一个常见的多Token实体(如"Diana, Princess of Wales")时,必须消耗多个早期层的Attention和FFN来逐步组合特征——这个过程本质上是用昂贵的运行时计算重建一个静态查表。论文通过一个具体案例(Table 3)展示了LLM如何逐层将"Wales"从"英国的一个国家"逐步构建为"戴安娜,威尔士王妃(1961-1997)"的完整实体表征。这些珍贵的序列深度本可以分配给更高层次的推理。

稀疏容量分配问题(Sparsity Allocation)

MoE通过条件计算扩大模型容量,但所有稀疏参数都分配给了同一范式。问题在于:是否应该将一部分稀疏容量分配给一个不同类型的原语——条件记忆?如果是,最优分配比是多少?这构成了论文的核心问题。

核心贡献

  1. 提出条件记忆这一新的稀疏性维度:与条件计算(MoE)互补,通过稀疏查表来检索静态嵌入以处理固化知识。

  2. Engram模块设计:将经典N-gram嵌入现代化,集成分词器压缩(23%词汇量缩减)、多头哈希、上下文感知门控(基于Attention的Query-Key匹配)、深度可分离因果卷积和多分支融合。

  3. U型稀疏分配缩放定律:在固定总参数和计算预算下,验证损失与MoE/Engram分配比呈U型关系,最优分配点约为ρ≈75-80%(即20-25%的稀疏参数分配给Engram)。该最优比例在两种计算预算下保持稳定。

  4. Engram-27B/40B大规模验证:在iso-parameter和iso-FLOPs条件下,Engram-27B全面超越纯MoE-27B——不仅在知识密集型任务上(MMLU +3.4),在通用推理(BBH +5.0)、代码(HumanEval +3.0)和数学(MATH +2.4)上的增益更大。

  5. 机制分析揭示"有效深度"效应:通过LogitLens和CKA分析证明,Engram通过将早期层从静态知识重建中解放出来,使浅层表征等效地对应到纯MoE模型的更深层——即Engram等效地增加了模型的有效深度。

  6. 长上下文的结构性优势:Engram将局部依赖的处理委托给查表操作,释放了Attention容量用于全局上下文,在Multi-Query NIAH上从84.2提升至97.0。

  7. 系统效率的硬件-算法协同设计:Engram的确定性寻址实现了运行时预取,100B参数的Embedding表卸载至主机内存仅导致<3%的吞吐量损失。

方法

Engram架构总览

Engram架构图
Engram架构图

图1说明:Engram模块通过检索静态N-gram记忆并与动态隐藏状态通过上下文感知门控融合来增强Transformer骨干网络。该模块仅应用于特定层(由建模和系统延迟约束共同决定),以将记忆从计算中解耦。标准输入嵌入和输出解嵌模块保持不变。

Engram的每个Token处理包含两个功能阶段:检索(Retrieval)和融合(Fusion)。

阶段一:基于哈希N-gram的稀疏检索

分词器压缩(Tokenizer Compression)

标准子词分词器(如BPE)优先无损重建,经常为语义等价的词项分配不同的ID(如"Apple"和"␣apple")。Engram通过一个词汇投影层解决此问题:

  • 计算一个满射函数P: V→V',将原始Token ID基于规范化文本等价性(NFKC、小写化等)映射为规范ID

  • 实践中对128k分词器实现了23%的有效词汇量缩减

  • 将每个Token的原始ID x_t映射为规范ID x't,形成后缀N-gram g{t,n}

多头哈希(Multi-Head Hashing)

直接参数化所有可能的N-gram组合空间是不可行的。Engram采用基于哈希的方法:

  • 对每个N-gram阶数n,使用K个不同的哈希头

  • 每个头k通过确定性函数φ_{n,k}将压缩后的上下文映射到嵌入表E_{n,k}中的索引

  • 哈希函数实现为轻量级的乘性XOR哈希

  • 最终记忆向量e_t由所有检索到的嵌入拼接而成

这个设计的关键优势在于确定性寻址——与MoE的动态路由不同,Engram的检索索引仅取决于输入Token序列,可以在前向传播之前确定。

阶段二:上下文感知门控

静态检索的嵌入e_t本质上是上下文无关的先验知识,它缺乏上下文适应性,且可能因哈希碰撞或多义性而引入噪声。为此,Engram引入上下文感知门控机制:

  1. Key-Value投影:当前隐藏状态h_t(通过前置Attention层聚合了全局上下文)作为动态Query;检索到的记忆e_t作为Key和Value的来源

  2. 门控标量计算:α_t = σ(RMSNorm(h_t)^T · RMSNorm(k_t) / √d),输出值在(0,1)之间

  3. 门控输出:ṽ_t = α_t · v_t

如果检索到的记忆e_t与当前上下文h_t矛盾,门控α_t趋向于零,有效抑制噪声。

最后,通过一个短的深度可分离因果卷积(核大小=4,膨胀率=最大N-gram阶数,SiLU激活)扩展感受野并增强非线性能力。Engram通过残差连接集成到骨干网络:H^(ℓ) ← H^(ℓ) + Y。

多分支架构集成

Engram的骨干网络采用先进的多分支架构(基于流形约束超连接Manifold-Constrained Hyper-Connections,M=4个分支)。在多分支框架下:

  • 单一稀疏嵌入表和Value投影矩阵W_V在所有M个分支间共享

  • M个独立的Key投影矩阵{W_K^(m)}实现分支特定的门控行为

  • 分支特定的门控信号:α_t^(m) = σ(RMSNorm(h_t^(m))^T · RMSNorm(W_K^(m) e_t) / √d)

  • 该设计允许线性投影融合为单个密集FP8矩阵乘法,最大化GPU计算利用率

系统效率:计算与存储的解耦

Engram的确定性寻址自然支持参数存储与计算资源的解耦:

训练阶段:大规模嵌入表跨GPU分片存储,使用All-to-All通信原语在前向传播中收集活跃行、在反向传播中分发梯度。

推理阶段:利用确定性检索的特性实现预取-重叠策略。Engram模块放置在特定层,利用前置层的计算作为缓冲区来掩盖PCIe通信延迟。这需要硬件-算法协同设计:放置更深可以延长计算窗口以隐藏延迟,但建模性能(见消融实验)倾向于早期介入以卸载局部模式重建。

Engram系统实现
Engram系统实现

图2说明:(a)训练阶段:嵌入表跨GPU分片,通过All-to-All通信检索活跃嵌入行。(b)推理阶段:Engram表卸载至主机内存,主机利用确定性检索逻辑异步预取嵌入,将通信与前置Transformer块的计算重叠。

此外,自然语言N-gram遵循Zipf分布——少数模式占绝大多数访问。这一统计特性支持多级缓存层次:高频嵌入缓存在快速存储(GPU HBM或主机DRAM),长尾稀有模式驻留在较慢的大容量介质(如NVMe SSD)。

缩放定律与稀疏分配

U型分配定律

论文形式化了稀疏分配问题:给定固定的总参数预算P_tot和激活参数P_act,如何将非活跃参数预算P_sparse分配给MoE专家和Engram嵌入?

定义分配比ρ∈[0,1]为非活跃参数分配给MoE专家的比例:

  • P_MoE^(sparse) = ρ · P_sparse

  • P_Engram = (1-ρ) · P_sparse

  • ρ=1:纯MoE模型

  • ρ<1:减少路由专家数量,释放参数给Engram

稀疏分配与Engram缩放
稀疏分配与Engram缩放

图3说明:左图为两种计算预算(2e20和6e20 FLOPs)下的验证损失与分配比的关系,两者均表现出U型曲线——纯MoE(ρ=100%)是次优的,重新分配约20-25%的稀疏参数给Engram达到最佳性能。在10B规模(C=6e20),验证损失从ρ=100%时的1.7248降至ρ≈80%时的1.7109。最优ρ≈75-80%在两种预算下保持稳定。右图为无限记忆规模下的缩放行为,验证损失随嵌入槽位数量呈对数线性趋势。

关键洞察:

  • MoE主导(ρ→100%):模型缺乏处理静态模式的专用记忆,被迫通过深度和计算来低效重建

  • Engram主导(ρ→0%):模型失去条件计算能力,损害需要动态、上下文相关推理的任务——记忆不能替代计算

无限记忆缩放

在固定3B MoE骨干网络上,将Engram表从2.58×10^5扩展到1.0×10^7个槽位(增加约13B参数),验证损失遵循严格的幂律缩放(对数空间中线性)。每次增加记忆容量都持续带来收益——无需额外计算成本。

大规模预训练实验

实验设置

配置

Dense-4B

MoE-27B

Engram-27B

Engram-40B

总参数

4.1B

26.7B

26.7B

39.5B

激活参数

3.8B

3.8B

3.8B

3.8B

训练Token

262B

262B

262B

262B

路由专家

-

2+72(top-6)

2+55(top-6)

2+55(top-6)

Engram参数

-

-

5.7B

18.5B

所有模型使用相同的训练数据课程、相同的Token预算和顺序。Engram-27B严格从MoE-27B派生:将路由专家从72减至55(ρ=74.3%),释放的参数分配给5.7B的Engram记忆模块。

主要实验结果

预训练性能对比
预训练性能对比

跨领域的全面超越

知识检索

  • MMLU: MoE 57.4 → Engram 60.4 (+3.0)

  • MMLU-Pro: 28.3 → 30.1 (+1.8)

  • CMMLU: 57.9 → 61.9 (+4.0)

  • C-Eval: 58.0 → 62.7 (+4.7)

通用推理(增益最大):

  • BBH: 50.9 → 55.9 (+5.0)

  • ARC-Challenge: 70.1 → 73.8 (+3.7)

  • DROP: 55.7 → 59.0 (+3.3)

代码与数学

  • HumanEval: 37.8 → 40.8 (+3.0)

  • MATH: 28.3 → 30.7 (+2.4)

  • GSM8K: 58.4 → 60.6 (+2.2)

Engram-40B进一步扩展至18.5B参数后,在大部分基准上继续提升。基于训练损失缺口仍在扩大的趋势,论文认为在当前Token预算下扩大后的记忆容量尚未完全饱和。

长上下文

长上下文性能对比
长上下文性能对比

长上下文扩展实验揭示了Engram的结构性优势:

Iso-Loss设置(46k步Engram vs 50k步MoE基线,预训练损失对齐):

指标

MoE-27B(50k)

Engram-27B(46k)

Multi-Query NIAH

84.2

97.0

Multi-hop VT

77.0

87.2

Iso-FLOPs设置(50k步Engram-27B):在所有RULER指标上建立了最高性能。

极低计算设置(Engram 41k步,约82% FLOPs):在以82%计算量匹配基线LongPPL的同时,在RULER上超越基线。

论文通过两阶段策略精确归因Engram的结构贡献:首先解耦基础模型能力与架构设计的影响,然后进行受控比较。结果表明Engram通过将局部依赖委托给查表操作,释放了Attention容量用于全局上下文管理。

机制分析

Engram是否等效于增加模型有效深度?

论文使用两种机制可解释性工具验证一个核心假说:Engram通过绕过早期特征组合过程,等效地增加了模型的有效深度。

LogitLens分析

表征对齐与收敛速度分析
表征对齐与收敛速度分析

图4说明:(a)通过LogitLens计算的逐层KL散度——Engram变体在早期层中系统性地表现出更低的散度,更陡峭的下降曲线表明模型更快地完成了特征组合。(b-c)CKA相似度热力图——高相似度对角线的明显向上偏移表明Engram的浅层表征在功能上等效于MoE模型的更深层。

通过将每个中间层隐藏状态用最终的LM Head投影,计算中间输出分布与最终输出分布之间的KL散度(量化"预测就绪"程度):

  • 两个Engram变体系统性地表现出更小的KL散度

  • 最显著的差距出现在早期块

  • 通过显式访问外部知识,Engram减少了所需的计算步数

CKA表征对齐分析

引入软对齐指数a_j(定义为与Engram层j最相似的top-5个MoE层的加权质心)。观察到一个明显的对角线上偏移:

  • Engram-27B在第5层形成的表征与MoE基线约第12层的表征最接近

  • 这个偏移量在整个层范围内保持一致

将LogitLens和CKA结果合并,结论是:Engram通过显式查表绕过早期阶段的特征组合,在功能上等效于增加模型的有效深度。

实体解析示例
实体解析示例

Table 3说明:LLM如何逐层消耗Attention和FFN来构建"Diana, Princess of Wales"的内部表征——这个过程可以被Engram的显式查表操作所取代。

结构消融与层敏感性

架构消融结果
架构消融结果

图5说明:左图为层敏感性扫描——在固定1.6B Engram预算下将单个Engram模块的插入深度从第1层扫到第12层,Layer 2达到最佳性能(早期介入以卸载局部模式重建,同时已有足够的全局上下文用于精确门控)。右图为组件消融——多分支集成、分词器压缩和上下文感知门控是最关键的三个组件。

层放置的权衡

  • 早期注入优势:在骨干网络消耗计算深度之前卸载局部模式重建

  • 延迟注入优势:更强的上下文Query带来更精确的门控(后期隐藏状态已聚合更丰富的全局上下文)

  • 分层设计(Layer 2 + Layer 6)调和了这种权衡——结合了早期干预和丰富的后期上下文门控

关键组件消融(按重要性排序):

  1. 多分支特定融合(w/o multi branch:损失大幅回升)

  2. 上下文感知门控(w/o gating:损失明显回升)

  3. 分词器压缩(w/o token compress:损失回升)

  4. 深度可分离卷积(w/o short conv:影响较小)

  5. 4-gram扩展(在固定1.6B预算下略微次优,因为稀释了更频繁的2/3-gram模式的容量)

Engram功能二义性

Engram消融下的保留性能
Engram消融下的保留性能

图6说明:在推理时完全抑制Engram模块输出(同时保持骨干网络不变),不同能力维度的性能保留率揭示了尖锐的功能二义性——事实知识类基准崩溃至原始性能的29-44%,而阅读理解任务保留81-93%。

论文通过在推理时抑制稀疏嵌入输出进行后验消融分析。实验结果揭示了一个尖锐的功能二义性:

  • 事实知识(Factual Knowledge)领域遭受灾难性崩溃:TriviaQA仅保留29%,PopQA仅保留36%,MMLU-Pro仅保留44%

  • 阅读理解(Reading Comprehension)任务几乎未受影响:C3保留93%,RACE-Middle保留89%,RACE-High保留84%

这一明确的分化确认了:Engram模块是参数化知识的主要存储库,而上下文相关推理仍然依赖于骨干网络的Attention机制。

门控机制可视化

门控机制可视化
门控机制可视化

图7说明:Engram-27B的门控标量α_t热力图——在完成局部静态模式时(如"Alexander the Great"、"the Milky Way"、"Princess of Wales"以及中文的"四大发明"和"张仲景"),门控一致地激活。这验证了Engram按预期识别和处理固化的语言依赖。

推理效率

推理吞吐量
推理吞吐量

在NVIDIA H800上,将100B参数的Engram表完全卸载至主机内存的吞吐量比较:

骨干模型

配置

吞吐量 (tok/s)

损失

4B-Dense

基线

9,031.62

-

4B-Dense

+100B Engram(CPU卸载)

8,858.28

1.9%

8B-Dense

基线

6,315.52

-

8B-Dense

+100B Engram(CPU卸载)

6,140.02

2.8%

前置密集块的计算强度提供了足够的时间窗口来掩盖检索延迟。这还是一个保守基线——在实际层级设计中,Zipf局部性会进一步降低有效检索延迟。

局限性

  1. 最优分配比的尺度依赖性:论文仅在两个计算预算(2e20和6e20 FLOPs)下探索了U型曲线,在更大尺度(如千亿参数级别)下最优ρ值可能变化。

  2. Engram-40B的欠训练:Engram-40B的训练损失缺口仍在扩大,表明18.5B的记忆容量在当前Token预算下尚未完全饱和,更大规模的缩放特性有待验证。

  3. N-gram阶数的限制:论文主要使用{2,3}-gram组合。4-gram在固定小预算下稀释了高频模式的容量,但在更大记忆规模下高阶N-gram可能带来增益——这一点未被充分探索。

  4. 仅文本模态:Engram的设计和评估完全在文本领域。视觉或多模态领域中的条件记忆潜力未被研究。

  5. 注意力机制的竞争性替代:虽然论文在长上下文实验中展示了Engram的结构优势,但与更高效的注意力变体(如线性注意力、状态空间模型)的系统性比较尚未进行。

  6. 预取策略的部署复杂度:100B参数卸载实验是基于简化的两骨干块设置进行的。在更复杂的生产环境中,多Engram层之间的通信调度优化仍有大量工作。

未来工作

论文暗示的前进方向:

  • 在更大尺度(>100B参数)验证U型分配定律的普适性

  • 将条件记忆扩展到多模态场景(视觉记忆、音频记忆等)

  • 探索更高阶N-gram在更大记忆容量下的收益

  • 完善层级缓存架构以进一步降低推理延迟

  • 将Engram与其他高效的注意力替代方案结合

笔者的补充判断:

  • 条件记忆的概念可以自然地扩展到更结构化的知识形式,如知识图谱三元组或代码API签名

  • Engram的确定性寻址特性使其天然适合联邦学习或隐私保护场景——记忆表可以在不暴露原始数据的情况下共享

启发

工程实践层面

  1. "宁做查表,不做计算"是新的效率原则:Engram的核心哲学是用O(1)查表替代O(d^2)的计算来编码固化知识。这提醒架构设计者:当大量文本模式实际上是静态且高频重复的时候,将计算资源分配给他们是低效的。对于任何需要处理大量结构化或半结构化文本的系统,显式的记忆查表模块是一种值得考虑的架构选择。

  2. U型分配曲线的工程意义:论文发现的U型曲线给出了明确的优化方向——在给定的稀疏参数预算下,分配约20-25%给条件记忆是最优的。这一比例可以作为构建新MoE架构时的初始参考。

  3. 确定性寻址的部署优势被低估:MoE的动态路由在推理时需要全局All-to-All通信,而Engram的确定性寻址允许预取和卸载。对于需要在资源受限环境中部署大模型的团队,这一特性有直接的工程价值。

研究设计层面

  1. 语言建模的双重性提供了一个新的研究视角:将语言建模任务分解为"推理"和"检索"两个维度,并分别为每个维度设计专门的架构原语——这一思路可以推广到更多任务领域。任何同时要求推理能力和知识存储的AI任务,都可以从"专用计算+专用记忆"的架构设计范式中受益。

  2. 有效深度是一个被低估的模型性能指标:论文通过CKA和LogitLens证明了Engram的增益本质上是"等效地增加了模型有效深度"。这一发现提示:未来的架构创新不应仅关注参数效率,还应关注"每个参数能为有效计算层贡献多少"。

  3. N-gram的现代复兴具有启示意义:一个被普遍认为已经过时的技术(N-gram嵌入),经过合适的现代化改造(多头哈希、上下文门控、多分支集成),可以成为与MoE互补的强大建模原语。这提醒研究者不要轻易忽视经典思想的潜力。

小结

Conditional Memory via Scalable Lookup通过Engram模块将条件记忆确立为与条件计算(MoE)互补的稀疏性新维度。论文的核心洞察——"语言建模中相当大比例的知识检索可以用O(1)查表替代昂贵的深度计算"——既有理论基础(N-gram的效率在数十年间已被反复验证),也有实证支持(Engram-27B在iso-parameter/iso-FLOPs下全面超越纯MoE基线)。

最具启发性的发现可能是推理增益(BBH +5.0, ARC-Challenge +3.7)超过了知识检索增益(MMLU +3.4, CMMLU +4.0)——因为将静态知识重建从早期层中卸载,使模型可以将宝贵的序列深度重新分配给更高层次的推理。Engram的价值不仅在它存储了什么,更在于它让Transformer骨干网络不需要做什么。

对于从事大模型架构设计的任何研究者或工程师,这项工作中的U型分配定律、确定性寻址的系统效率优势,以及"显式记忆+动态计算"的二元架构范式,都是值得深入理解和借鉴的。

END