聊着聊着就丢了关键信息——上下文压缩是怎么回事

你肯定遇到过这种情况：

让AI帮你调试代码，前面几十轮对话里已经确认了API地址、Cookie、正确的参数格式。聊着聊着，AI突然用了错误的Cookie，或者重新问你要之前已经给过的API地址。

你心想：我明明告诉过你了啊。

确实告诉过它了。但那段信息，在上下文压缩的过程中，丢了。

这不是你的错觉，也不是模型在故意装傻。它是当前大语言模型架构中一个真实存在的机制性问题。理解这个问题，能让你在使用AI工具时事半功倍。

为什么需要上下文压缩？

模型能处理的上下文长度是有限的。

GPT-4的上下文窗口大约是128000个token，Claude 3.5大约是200000个token。听起来很多，但如果对话足够长——比如你在一个项目上连续工作几个小时，光是在对话中来回传递的代码片段、报错信息、调试日志，就能轻松吃掉几万甚至十几万个token。

当对话长度接近上限时，系统会自动进行上下文压缩——把之前的多轮对话"精简"压缩成更短的摘要，腾出空间继续对话。

上下文压缩本身是为了让对话能继续下去，但代价是：信息在压缩中丢失了。

这就好比你和一个同事面对面讨论了一整个下午的项目细节，晚上你让你同事的助理帮你回顾一下讨论的要点。助理用几句话总结了整个下午的内容，大部分框架还在，但很多具体的数字、代码片段、精确表述，都在这个"总结"过程中被丢掉了。

哪些信息最先丢失？

压缩不是均匀删减的。它遵循一个规律：越具体的信息越容易丢失，越泛化的信息越容易保留。

API的具体返回值、某个Cookie的准确字符串、某个CSS选择器的精确写法——这些"细节"在压缩时最容易被丢弃。

而"我们正在讨论一个网页抓取任务"、"之前遇到了一些问题"这类泛化描述，反而更容易保留。

结果就是：压缩之后，模型知道"之前在做什么"，但忘记了"具体怎么做"。

就像一个实习生帮你做了三天项目，第四天你让他继续。他记得"这个项目是做一个数据面板"，但忘了"数据库连接字符串是什么"、"之前已经调好的接口地址是哪个"。

这个比喻其实非常精准。上下文压缩本质上就是一个"总结"的过程，而总结天然会丢弃细节。问题在于，对于很多技术任务来说，恰恰是那些被丢弃的细节决定了任务能不能顺利完成。

我自己在用Claude Code处理复杂任务时就深有体会：前面几轮已经调通了一个API接口，上下文压缩之后，它突然问我"这个接口的URL是什么"。那一刻我才意识到，上下文压缩把最关键的信息丢掉了。

"Lost in the Middle"现象

上下文压缩还加剧了另一个问题——"Lost in the Middle"（迷失在中间）。

前文提到过，斯坦福大学和纽约大学的研究发现：当关键信息出现在上下文中间位置时，自注意力天然就会衰减。

上下文压缩之后，这个效应更加明显。因为压缩改变了信息的原始位置和顺序，原本在开头的重要信息可能被移到了中间，原本清晰的逻辑链条被打散重组。

模型看着压缩后的上下文，就像一个读者看了别人写的读书笔记——大意还在，但关键的论据和数据全没了。

更糟糕的是，压缩后的摘要模型自己也无法完全信任。因为摘要是模型自己生成的，它可能包含模型"认为正确"但实际上有偏差的信息。这种偏差叠加原有信息的丢失，会让模型的判断越来越偏。

实际表现是什么样的？

上下文压缩导致的注意力失焦，在实际使用中表现为几种典型症状：

反复问同一件事。 你之前告诉过模型的参数，它又问了一遍。不是它忘了，是上下文压缩时那段信息丢了。

使用错误的上下文信息。 模型拿着压缩后残留的碎片信息去推理，得出错误的结论。比如之前用的是方法A，压缩后变成了方法B的概述，模型就按方法B去执行。

丢失关键约束条件。 "不要用全局变量"、"必须处理空值"这类关键约束，在上下文压缩后最容易被遗忘，导致模型生成的代码违反了你之前定好的规则。

风格漂移。 你在对话开头定义了代码风格（比如用TypeScript不用any、函数命名用camelCase），经过上下文压缩后，模型的输出开始偏离这些约定，因为它"忘了"之前定好的规范。

如果你用过AI编程助手coding超过30分钟，以上症状你大概率都经历过。

怎么减少上下文压缩的伤害？

有几个实用策略：

关键信息放在对话开头。 开头位置的自注意力权重最高，被上下文压缩丢失的概率最低。把项目的核心约束、关键参数、技术栈选择等放在最前面。

重要结论重复强调。 不要只说一次。在对话中段和结尾处再次提及关键约束，增加它存活过上下文压缩的概率。可以简单地用一句"注意：我们之前确定的规则是xxx"来强化记忆。

定期开新会话。 这是最彻底的解决方案。当你发现模型的回答开始"跑偏"时，果断开新会话，把当前的关键信息重新说一遍。虽然开头几轮的时间成本增加了，但后续的执行质量会高很多。

拆任务。 不要在一个会话里做太多不相关的事。每个新任务开新会话，保持上下文干净。一个会话最好只聚焦一个具体的任务。

把关键信息写到文件里。 这是很多高级工程师都在用的做法。把需求文档、API规范、技术方案写到项目文件里，让AI读文件而不是依赖上下文中的对话历史。文件不会被压缩，信息不会丢失。

理解了上下文压缩的机制，你就明白了一个道理：和AI的长对话，不是免费的。每多聊一轮，关键信息的"浓度"就被稀释一层。 聪明的使用方式不是一直聊下去，而是知道什么时候该开新会话。

聊着聊着就丢了关键信息——上下文压缩是怎么回事

聊着聊着就丢了关键信息——上下文压缩是怎么回事

为什么需要上下文压缩？

哪些信息最先丢失？

"Lost in the Middle"现象

实际表现是什么样的？

怎么减少上下文压缩的伤害？

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

面试官问你：RAG 如何处理 PDF——别再说转文本切片了