注意力机制入门：从「人类如何看世界」到 Self-Attention 的数学直觉

你有没有想过，为什么 AI 能「听懂」你说了什么？

你输入一句「帮我查一下明天北京的天气」，AI 不会把它当成 12 个独立的字符，而是理解「查天气」是动作，「北京」是地点，「明天」是时间。它会自动「关注」句子中最重要的部分。

这个能力，来自一个叫做 注意力机制（Attention Mechanism） 的东西。

一、人类天生就会「注意力」

想象你走进一个嘈杂的咖啡馆。周围有人在聊天、咖啡机在响、手机在震。但你能专注听清对面朋友说的话——因为你的大脑自动过滤了「无关信息」，把「注意力」集中在声源方向。

这就是注意力：从大量信息中，选择最相关的部分进行处理。

人类视觉也是一样。你看一张照片时，不会同时看清每个像素。你的视线会自然地「扫」到最显眼的地方——一张人脸、一个红色的物体、一行标题。这就是视觉注意力。

更有趣的是，人类注意力还有一个特性叫做鸡尾酒会效应：即使在极度嘈杂的环境中，如果有人叫你的名字，你的大脑会立刻捕捉到这个名字。这说明注意力系统不仅能空间过滤，还能根据语义重要性做选择性聚焦。后来的 AI 注意力机制正是从这个生物学灵感出发，让模型学会在浩瀚的 token 海洋中找到真正重要的那一滴水。

二、让 AI 学会「关注重点」

早期的 AI 翻译模型（比如 RNN + Seq2Seq）有个严重问题：它试图把整个输入句子压缩成一个固定长度的向量，然后再解码成目标语言。

这就像让你用一句话总结一本书，然后再根据这句话重写整本书——信息损失可想而知。

特别是当输入句子很长时，RNN 的梯度会随着时间步传播而衰减或爆炸，导致模型很难记住较早期的输入内容。这就是著名的长距离依赖问题。早期的 LSTM 和 GRU 虽然通过门控机制在一定程度上缓解了这个问题，但本质上仍然是串行的、会丢失信息的压缩方案。

2014 年，Bahdanau 等人提出了一个大胆的想法：为什么不让模型在生成每个词时，都能「回头看」输入句子的不同部分？

这就是注意力的核心思想：

传统方式：
输入句子 → [压缩成一个向量] → 输出句子

注意力方式：
输入句子 → [生成第1个词时，关注"我"]
         → [生成第2个词时，关注"喜欢"]
         → [生成第3个词时，关注"苹果"]

这个想法看似简单，却彻底改变了自然语言处理的格局。自此之后，基于注意力的模型在翻译质量上首次超越了传统的统计机器翻译（SMT），并且为后来 Transformer 的诞生铺平了道路。

三、注意力的数学直觉

别被公式吓到，我们用直觉来理解。

注意力机制有三个核心矩阵：

Query（查询）：我现在需要什么信息？
Key（键）：我能提供什么信息？
Value（值）：信息的具体内容是什么？

用一个比喻来理解：

你在图书馆找书（Query），每本书有个标签（Key），书的内容是（Value）。你通过比较「想找什么」和「标签是什么」的相关性，决定花多少时间看每本书。

用公式表示就是：

Attention(Q, K, V) = softmax(Q·K^T / √d) · V

其中：

Q·K^T 计算 Query 和 Key 的相似度（点积）
√d 是缩放因子，防止点积过大导致 softmax 梯度消失
softmax 把相似度转换成概率分布（所有权重加起来等于1）
最后乘以 V，得到加权输出

注意这里的缩放因子 √d 非常重要。当 Q 和 K 的维度 d 较大时，点积会变得非常大。把这些大值送入 softmax 后，函数会输出极端的概率分布——接近 one-hot 的分布，梯度极小，导致训练几乎停滞。除以 √d 正是为了让点积的方差保持在合理范围内，确保梯度能正常流动。

四、Self-Attention：自己注意自己

Self-Attention 是 Transformer 的核心组件。它不是让输出关注输入，而是让序列中的每个元素都关注序列中的所有其他元素。

比如这句话：「猫坐在垫子上，因为它累了。」

「它」指的是谁？——是「猫」。

人类大脑会自动建立这种联系。Self-Attention 让 AI 也能做到这一点：

句子："猫 坐 在 垫子 上 ， 因为 它 累 了"

Self-Attention 计算：
  "它" → 关注 "猫"（权重 0.7）
       → 关注 "累"（权重 0.2）
       → 关注 "垫子"（权重 0.05）
       → 关注其他词（权重 0.05）

通过这种方式，模型自动学会了「代词指代」这种复杂的语言现象。

更重要的是，Self-Attention 建立的是词与词之间的直接连接。在传统 RNN 中，为了联系句首和句尾的两个词，信息必须穿过中间的每一个时间步。而在 Transformer 中，任意两个词之间的路径长度只有一步——这就是为什么 Transformer 天生擅长处理长距离依赖。

对于「猫坐在垫子上的垫子很软，所以它很开心」这样的长句，RNN 处理到「它」时可能已经忘了句首的「猫」，而 Self-Attention 让「它」依然能直接和「猫」建立联系。

五、注意力热力图：看见 AI 在看什么

下图展示了一个 Self-Attention 的计算过程。颜色越深，表示两个词之间的注意力权重越高。

graph LR
    subgraph 输入序列
        A["猫"] 
        B["坐"]
        C["在"]
        D["垫子"]
        E["上"]
        F["，"]
        G["因为"]
        H["它"]
        I["累"]
        J["了"]
    end

    subgraph 注意力权重
        H -.->|"0.7"| A
        H -.->|"0.2"| I
        H -.->|"0.05"| D
    end

    style A fill:#ff6b6b,color:#fff
    style H fill:#ff6b6b,color:#fff
    style I fill:#ffa502,color:#fff

在实际的 Transformer 中，注意力权重是一个完整的矩阵：

        猫    坐    在   垫子   上    ，   因为   它   累   了
 猫    [0.3, 0.1, 0.1, 0.2, 0.1, 0.0, 0.1, 0.1, 0.1, 0.1]
 坐    [0.2, 0.3, 0.2, 0.1, 0.1, 0.0, 0.1, 0.0, 0.1, 0.1]
 在    [0.1, 0.2, 0.3, 0.2, 0.1, 0.0, 0.1, 0.0, 0.1, 0.1]
 垫子  [0.1, 0.1, 0.2, 0.3, 0.2, 0.0, 0.1, 0.1, 0.1, 0.1]
 上    [0.1, 0.1, 0.1, 0.2, 0.3, 0.1, 0.1, 0.1, 0.1, 0.1]
 ，    [0.1, 0.1, 0.1, 0.1, 0.1, 0.2, 0.2, 0.1, 0.1, 0.1]
 因为  [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.3, 0.2, 0.1, 0.1]
 它    [0.3, 0.1, 0.1, 0.1, 0.1, 0.0, 0.1, 0.2, 0.2, 0.1]  ← "它"最关注"猫"
 累    [0.1, 0.1, 0.1, 0.1, 0.1, 0.0, 0.1, 0.2, 0.3, 0.2]
 了    [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.2, 0.3]

六、Multi-Head Attention：多角度理解

人类理解一句话，会从多个角度分析：

语法角度：主谓宾结构
语义角度：谁对谁做了什么
上下文角度：代词指代谁

Transformer 也是一样。它使用 Multi-Head Attention（多头注意力），让模型从多个子空间同时学习不同的注意力模式。

输入
  │
  ├── Head 1：学习语法依赖（主谓宾）
  ├── Head 2：学习语义相似（同义词）
  ├── Head 3：学习位置关系（相邻词）
  ├── Head 4：学习指代关系（代词→名词）
  │
  ▼
拼接所有头的输出 → 线性变换 → 最终输出

通常 Transformer 有 8~12 个注意力头，每个头关注不同的特征维度。这些不同的注意力头有时会形成有趣的分工：有的头专门追踪位置相邻关系（类似于 N-gram 的效果），有的头学习到近似句法树的依赖结构，有的头则负责捕捉主题和语义关联。

以 GPT-3 为例，它有 96 层 Transformer Decoder，每层包含 96 个注意力头。也就是说， GPT-3 在每一层都会创建 96 种不同的注意力模式。这些注意力层的叠加，让模型能够从浅层的语法模式逐步过渡到深层的语义理解——这和人类大脑语言处理的分层结构有着异曲同工之妙。

七、注意力机制为什么这么强？

优势	说明
并行计算	所有位置同时计算注意力，不像 RNN 必须顺序处理
长距离依赖	任意两个位置直接连接，不受距离限制
可解释性	注意力权重可以可视化，看看模型在关注什么
通用性强	不仅用于 NLP，还用于 CV、语音、多模态

并行计算这个优势特别关键。RNN 必须一步一步处理序列，无法充分利用 GPU 的并行能力。Transformer 的所有位置同时计算，训练速度大幅提升，这也是为什么大语言模型能规模化训练到万亿参数级别的硬件基础。

注意力机制的可解释性也是一个独特优点。通过可视化注意力权重，我们能直观地看到模型在回答问题时「看」了哪些词，这种透明度在医疗、金融等需要可解释性的领域尤为重要。

八、一句话总结

注意力机制让 AI 学会了在大量信息中「挑重点」，Self-Attention 让每个词都能「看到」整句话，Multi-Head Attention 让模型从多个角度理解同一句话。

这就是 Transformer 能「理解」语言的底层原理。

下一篇：我们将深入 Transformer 的完整架构——Encoder、Decoder、位置编码、残差连接，看看注意力机制如何组装成这个改变 AI 历史的模型。

本文是「从 Attention 到 LLM」系列的第一篇。

注意力机制入门：从「人类如何看世界」到 Self-Attention 的数学直觉

注意力机制入门：从「人类如何看世界」到 Self-Attention 的数学直觉

一、人类天生就会「注意力」

二、让 AI 学会「关注重点」

三、注意力的数学直觉

四、Self-Attention：自己注意自己

五、注意力热力图：看见 AI 在看什么

六、Multi-Head Attention：多角度理解

七、注意力机制为什么这么强？

八、一句话总结

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

面试官问你：RAG 如何处理 PDF——别再说转文本切片了