AI为什么越聊越跑偏？自注意力机制的秘密

你有没有遇到过这种情况：让AI帮你写一段代码，前面聊得好好的，聊了十几轮之后，它突然忘了你最开始的要求，甚至开始自相矛盾？

不是AI"变笨"了，而是它内部的自注意力机制被"稀释"了。

自注意力是什么？

自注意力（Self-Attention）是当今所有大语言模型的核心机制，GPT、Claude、文心一言全都用它。

它的工作原理可以用一个比喻来理解：

想象你在会议室里听一场有100个人参加的讨论。每个人说话时，你需要决定"该听谁的"。正常情况下，你会把注意力集中在发言最相关的那几个人身上，忽略其他人的闲聊。

自注意力做的事几乎一样——当模型处理一个词时，它会计算这个词和上下文中所有其他词的"关联度"，给每个词分配一个权重。关联度高的词获得更多注意力，关联度低的词被忽略。

这就是"注意力"这个名字的由来。

更深一步地理解，自注意力本质上是一种动态的信息路由机制。在每一层 Transformer 中，每个 token（词元）都会生成自己的 Query 向量，去检索其他所有 token 的 Key 向量，找到最相关的信息后用 Value 向量加权汇聚回来。这个过程在所有层同时发生，层与层之间逐步从语法特征过渡到语义特征——浅层关注邻近的词序关系（类似 N-gram），深层关注远距离的语义依赖。

注意力是怎么被分散的？

关键问题在于：自注意力的总量是有限的。

会议室里只有10个人时，你可以轻松聚焦到最重要的发言者。但如果会议室里塞了1000个人，每个人都在说话，你的注意力就不得不分散到更多人身上，对每个人的关注度自然就下降了。

模型也一样。当上下文窗口里只有几轮对话时，自注意力可以精准聚焦到关键信息上。但随着对话越来越长，聊天记录、之前的代码、调试日志、各种中间结果全都挤在上下文里，自注意力就被"摊薄"了。

2023年，斯坦福大学和纽约大学的研究团队发表了一篇论文，专门研究了这个现象，起名叫**"Lost in the Middle"**（迷失在中间）。他们发现一个规律：当关键信息出现在上下文中间位置时，自注意力天然就会衰减，表现远不如信息出现在开头或结尾时。

这个"中间位置衰退"现象的实际影响比你想象的大。比如你让 AI 分析一篇长文档，如果把关键问题放在文档中间，AI 的回答准确率会显著低于把同样的问题放在开头或结尾。这也是为什么很多 AI 应用的设计建议是：把最重要的指令放在对话的最前面或最后面，而不是夹在中间。

为什么模型会"忘记"之前做过的事？

理解了自注意力分散，就能理解一个常见现象：模型明明之前已经获取了API数据、破解了映射关系，过几轮之后又重新做了一遍。

不是模型故意重复劳动，而是那些关键信息被淹没在上下文的海洋里了。当自注意力计算时，之前获取的数据和新对话内容放在一起，权重被分散了，模型"看"不到那些信息的重要性。

就像你在手机上打开了50个浏览器标签页，要找之前保存的一个网址——它就在那里，但你的注意力被其他49个页面分散了，一时半会儿找不到。

我自己在用Claude Code时就遇到过这个问题：让它爬取一个网站的API数据，前面几轮已经成功获取了正确的接口地址和Cookie，聊了十几轮之后，它突然开始用另一个完全不同的接口地址，完全忘了之前已经验证过的路径。当时百思不得其解，后来才意识到是自注意力被分散了。

这种"遗忘"现象还有一个更技术性的解释：在 Transformer 中，位置编码（Position Embeddings）的效应会随着距离衰减。虽然理论上自注意力可以一步链接任意两个 token，但在实际训练中，模型更擅长处理短距离依赖，长距离依赖的注意力分配天然就会弱一些。这也是为什么最新一代的模型在位置编码方案上做了各种改进（比如 RoPE、ALiBi），试图让模型在长上下文中更好地保持远距离信息的权重。

注意力的"信噪比"问题

更深层的原因是信噪比。

上下文中的信息分成两类：一类是对当前任务有用的（信号），一类是无关的历史对话（噪声）。随着对话变长，噪声越来越多，信号被淹没的比例越来越高。

自注意力机制虽然会尝试给信号更高的权重，但当噪声量远大于信号时，再聪明的注意力分配也无法完全避免干扰。

这就是为什么你发现：聊的时间越长，AI越容易跑偏、越容易忘记之前的关键信息、越容易重复已经做过的操作。

在工程实践中，这意味着上下文管理的质量直接决定了 AI 的能力上限。同样的模型，在整洁的上下文里可以表现出惊人的连贯性和准确性，但在堆砌了大量无关信息的上下文里却会退化到语无伦次。所以，与其一味追求更长的上下文窗口，不如学会管理好你的上下文内容——定期精简对话、去除冗余信息、突出关键内容，这些朴素的做法往往比技术升级更为有效。

知道了原理，能做什么？

理解了自注意力分散的原理，你就掌握了一把钥匙。

第一个实用策略：直接说需求，表达清楚。减少模型的决策点，就是减少自注意力分散的机会。

在开头把核心需求讲清楚，中间跑偏了就重申一遍。不要指望模型永远记住你第3轮说过的话，到了第20轮还完整清晰。

第二个实用策略：开新会话可以重置注意力。干净的上下文等于100%的自注意力聚焦。

发现модели开始重复犯错时，果断开一个新任务继续深度对话。对话越精炼，AI 出图越稳准狠。

第三个实用策略：把关键信息放在开头或结尾。研究表明，模型对开头和结尾的信息记忆最牢固，中间的信息最容易丢失。重要的定义、约束条件、问题描述，尽量放在对话开头或接近结尾的位置。

第四个实用策略：用结构化的方式组织上下文。比如把之前的结果单独写成一个"摘要区"放在每次对话开头，用最少的 token 保留最大价值的信息。这样既能提高信噪比，又不浪费上下文窗口。

记住一个原则：当你发现AI开始反复做同样的事、忘记之前的关键信息时，问题不在你的提问方式，在它的自注意力已经被耗尽了。

此时果断开新对话，就是最正确的解法。

AI为什么越聊越跑偏？自注意力机制的秘密

AI为什么越聊越跑偏？自注意力机制的秘密

自注意力是什么？

注意力是怎么被分散的？

为什么模型会"忘记"之前做过的事？

注意力的"信噪比"问题

知道了原理，能做什么？

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

面试官问你：RAG 如何处理 PDF——别再说转文本切片了