世界杯(中国) 模子也需要「睡觉」? CMU新论文让LLM在梦中「巩固记念」

机器之心剪辑部

很长一段时刻，「长高下文」一直是各大模子厂商武备竞赛的焦点，从 128K 到 1M，再到更长的高下文窗口，业界果决酿成一个固有判辨，只有窗口填塞大，模子就能记着更多内容，也就能处置更长、更复杂的任务。

但问题也随之而来：高下文越长，KV Cache 越肥胖，不仅导致显存一霎被「吃光」，推理速率愈发迟缓，本钱也赶紧高潮。

更瑕疵的是，把更多 token 放进窗口，并不等于模子果然把这些信息滚动成了可推理的永恒记念，终端是，榜单分数越刷越高，可在一些需要「深度脑暴」的复杂推理任务中，模子连续因为「记不住细节」，常常翻车……

靠近这一两难问题，近日，卡内基梅隆大学（CMU）和洽马里兰大学等在一篇新论文中提议了有真义的视角：既然东谈主类聚首责任深入会变笨，大模子也一样，既然如斯为什么不让 LLM 睡一觉呢？

2026FIFA世界杯中国官网

这篇论文的题目提纲契领，《Language Models Need Sleep》，也即是《言语模子需要睡觉》。

虽然，这里的「睡觉」不是果然睡觉，更准确地说，是一种访佛睡觉的「记念巩固机制」。

作家觉得，基于 Transformer 的大言语模子正越来越多地被用于长程任务，关连词，其稳健力机制在靠近更长高下文时膨胀性较差。为此，他们筹议出了这一「记念巩固机制」：

在睡觉过程中，模子会对累积的高下文奉行 N 次离线递归前向传播，并通过一种学习得到的局部公法，更新其情状空间模子（SSM）模块中的快速权重（fast weights）。在推理阶段，这种步调把非凡计较转化到「睡觉」阶段，同期保合手模子在「醒着」进行展望时的蔓延不变。

换句话说，它不是让模子一直把整个内容摊在目前，而是让模子学会在某些节点「停驻来念念一念念」，把刚刚读过的内容消化成之后还能调用的里面情状。

作家在一系列受控的合成任务上测试了该步调，包括细胞自动机、多跳图检索，以及一个更靠近真确场景的数学推理任务。在这些任务上，世俗 Transformer 和 SSM-attention 夹杂模子都会失败，而加多模子的「睡觉」时长 N ，可以普及性能，其中在需要更深层推理的样本上，普及最为彰着。

接下来，咱们来注释了解一下。

从动物睡觉中获取启发

这篇论文的灵感，来自动物睡觉中的记念巩固过程。

神经科学的筹议觉得，动物从短期记念到永恒记念的转化，是受到海马体 replay 机制的因循，尤其是在睡觉技能。在这一阶段，短期的海马体记念会被再行激活，并巩固到皮层突触权重中。睡觉会让动物无法对外部刺激作出反应，这也说明睡觉必须带来填塞大的判辨收益，才值得付出这一代价。

基于这一判辨，作家提议了这种把高下文窗口记念转化到合手久权重中的步调，即当模子的高下文窗口在推理过程中被填满时，模子就会干与「睡觉」情状：对累积的高下文奉行屡次前向传播，并通过学习得到的局部公法递归地更新 fast weights，在这个阶段，模子不会承袭外部输入 token。

巩固完成后，高下文窗口会被清空，模子则带着更新后的 fast weights 赓续运行。在检修过程中，模子通过整个这个词过程的反向传播进行端到端优化，以最大化睡觉之后的任务发达。

也即是说，大模子的检修过程被诀别为两个阶段：

「醒着」阶段：只崇拜快速反应，2026世界杯在线买输赢平台模子就像世俗的 Transformer 一样泛泛责任，它承袭长文本输入，快速给出展望和复兴，这时候它不需要对信息进行深度内化，只管「读」和「答」。

「睡觉」阶段：每隔一段时刻，模子就会干与「离线睡觉情状」，技能模子会垄断故意的后台时刻，对蚁集的高下文进行 N 次周而复始的离线处置（Recurrent passes），快要期高下文中的瑕疵细节，滚动为合手久的 fast weights，并写入其情状空间模子（SSM）模块中。

具体如下。

当高下文窗口被填满、模子行将从稳健力层中淘汰 token 之前，模子会先干与一个「巩固阶段」，在这一阶段奉行递归计较，通过这种时势膨胀计较量来处置深度推理任务，关于较大的时刻步 t，仍然欢腾展望阶段的蔓延不停。

举例，如果在沿途 D 个模块上进行轮回，其姿色如下：

其中，N 暗意在整个这个词架构上轮回奉行 N 次传递。

下图对架构进行了注释形容，从一个 SSM-Attention 夹杂模子运滚动，该模子具有固定的高下文窗口大小 L，其中稳健力缓存每 L 个 token 就会被皆备淘汰。在每 L 个 token 淘汰 KV Cache 之前，模子会奉行 N 次递归传递，凭证底下的公式 3 迭代更新 SSM 模块里面的快速权重；当 N = 1 时，它就退化为一个世俗的 SSM-Attention 夹杂模子。模子在迭代更新快速权重的这一阶段即是「睡觉阶段」。

在递归式地细化快速权重之后，KV Cache 会被淘汰，模子随后处置接下来的 L 个 token。

在齐备高下文处置已矣后，模子会基于仍是细化后的记念和面前高下文，通过一次前向传播来展望谜底。检修时，模子通过对公式 6 所示的整个这个词计较图进行反向传播，最小化展望谬误，这小数与其他深度递归模子访佛。

不同的是，以往的深度递归模子中，梯度会流经递归细化后的特征向量；而在这里，由于睡觉阶段兑现后，细化后的特征会被丢弃，梯度本色富贵经的是被细化后的快速权重。

齐备的检修进程如下所示：

本质：睡得越久，推理越强？

为了考据：加多睡觉时 N，到底能不成普及模子对「旧」高下文的推理才调？作家进行了系列本质。底下咱们来看一个更接近当然言语的数学推理任务 GSM-Infinite。

GSM-Infinite 可以判辨为一个长高下文数学推理基准，它和会过添加烦嚣 token 拉长题目，同期用所需算术操作数放弃难度。题目越复杂，需要的推理圭臬越多。

作家在 Jet-Nemotron 2B 和 Ouro 1.4B 两个预检修模子上测试了模子的「睡觉」机制。

终端呈现出一个赫然趋势，题目越难，「睡觉」带来的普及越彰着：

关于 Jet-Nemotron 2B，6 次 sleep loop 将 6 步运算题准确率从 0.742 普及到 0.812，将 8 步运算题从 0.351 普及到 0.388；

关于 Ouro 1.4B，4 次 sleep loop 将 6 步运算题准确率从 0.419 普及到 0.615，将 8 步运算题从 0.210 普及到 0.272。

也即是说，「睡觉」机制对节略题的匡助相对莫得那么彰着限，因为模子蓝本就能作念得可以；但当任务变得复杂，需要更多步推理、更强的高下文组织才调时，「睡觉」阶段的非凡计较就开赴点阐明作用了……

局限性：后果彰着，代价相通彰着

虽然，这篇论文并莫得把问题说得过于乐不雅。

作家坦言，这种步调是通过把非凡递归计较转化到巩固阶段，保合手了展望阶段的单次前向传播蔓延。但可这种收益不是免费的：在检修过程中，需要奉行 N 次更深的前向和反向传播，这会让检修变慢，也可能变得不得当。

而奉行 N 次，带来后果彰着普及是真，检修本钱随其线性增长亦然真……

因此，这项责任现在仍主如果步调论探索。

作家暗意，这一步调主要孝敬是步调论层面的，何况评估主要基于受控合成任务和中等范畴预检修模子。现在，它还不是一个仍是在超大范畴商用模子、真确长程 Agent 系统中充分考据的熟练有打算。

更多笃定世界杯(中国)，可稽查论文了解！

买世界杯平台

世界杯(中国) 模子也需要「睡觉」? CMU新论文让LLM在梦中「巩固记念」

扫码关注