大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

在上一篇文章《面试官问你：如何解决大模型的上下文长度限制》中，我们给出了面试场景下的标准回答框架。这篇文章面向想深入理解底层原理和工程实现的开发者，把每种方案讲透——原理、代码、优缺点、选型决策，一个不少。

一、问题根源：为什么上下文长度是瓶颈？

1.1 Transformer 的自注意力机制

Transformer 的核心是自注意力（Self-Attention）机制。在每一层中，每个 token 都要与所有其他 token 计算注意力分数：

Attention(Q, K, V) = softmax(QK^T / √d) × V

如果有 n 个 token，就需要计算 n × n 的注意力矩阵。这意味着：

计算量：O(n²·d)
显存：需要存储 n × n 的注意力矩阵 + n 个 token 的 KV Cache

1.2 O(n²) 到底意味着什么？

Token 数量	注意力矩阵大小	相对计算量
1K	1M	1×
4K	16M	16×
16K	256M	256×
64K	4B	4,096×
128K	16B	16,384×

Token 数量翻 4 倍，计算量翻 16 倍。这就是为什么上下文长度不是"稍微扩大一点"的问题，而是一个计算复杂度爆炸的问题。

1.3 Token = 真金白银

在推理阶段，每个 token 都要经过 GPU 计算。以 GPT-4 级别模型为例：

输入 token 成本：约 $0.01 / 1M tokens
输出 token 成本：约 $0.03 / 1M tokens

如果一个应用的平均上下文长度从 4K 扩展到 128K，单次推理的输入成本就增加 32 倍。对于日活百万的应用来说，这是一笔巨大的开销。

1.4 长窗口 ≠ 有效利用

这是很多人忽略的关键点。即使模型技术上支持 128K 上下文，模型对长上下文中间部分的注意力会急剧下降。

研究表明，大多数模型在超过 64K 后，"中段遗忘"现象非常严重——模型能较好地记住开头和结尾的内容，但对中间部分的信息检索准确率大幅下降。这意味着盲目扩大窗口并不能线性提升效果。

二、方案 1：滑动窗口（Sliding Window）

2.1 原理

滑动窗口是最简单的上下文管理策略：只保留最近 N 轮对话，超出的直接丢弃。

对话历史：[第1轮] [第2轮] [第3轮] ... [第48轮] [第49轮] [第50轮]
                              ↑ 窗口起点           ↑ 窗口终点
                              丢弃 ←——————————————→ 保留（最近 N 轮）

2.2 代码实现

from collections import deque

class SlidingWindow:
    def __init__(self, max_turns: int = 10):
        self.max_turns = max_turns
        self.messages = deque(maxlen=max_turns * 2)  # 每轮包含用户+助手
    
    def add_message(self, role: str, content: str):
        self.messages.append({"role": role, "content": content})
    
    def get_context(self) -> list:
        return list(self.messages)
    
    def get_token_count(self) -> int:
        return sum(len(m["content"]) // 4 for m in self.messages)  # 粗略估算

# 使用示例
window = SlidingWindow(max_turns=10)

# 模拟 50 轮对话
for i in range(50):
    window.add_message("user", f"用户第 {i+1} 轮的问题...")
    window.add_message("assistant", f"助手第 {i+1} 轮的回答...")

context = window.get_context()
print(f"保留了 {len(context)} 条消息（最近 10 轮）")
print(f"丢弃了前 40 轮的内容")

2.3 优缺点分析

维度	说明
实现难度	⭐ 最简单，一个 deque 搞定
额外成本	零
延迟影响	零
记忆能力	只有最近 N 轮，之前的全部丢失
信息损失	严重——用户最初的需求、关键约束条件可能全部丢失

2.4 适用场景

一次性问答（翻译、摘要、代码生成）
临时闲聊（不需要记住之前的对话）
对成本极其敏感、但不需要记忆的场景

三、方案 2：滚动摘要（Summary Compression）

3.1 原理

滚动摘要的核心思路是：不要丢弃老对话，而是把它压缩成摘要。

对话历史：[第1-20轮] [第21-40轮] [第41-50轮]
              ↓ 压缩           ↓ 压缩          ↓ 保留
          [摘要1: 2句话]  [摘要2: 2句话]  [原始对话]
              ↓                ↓               ↓
          ————————————————————————————————————————
                         送入模型上下文

3.2 代码实现

import openai

class RollingSummary:
    def __init__(self, compress_threshold: int = 20, summary_model: str = "gpt-4o-mini"):
        self.threshold = compress_threshold
        self.summary_model = summary_model
        self.messages = []
        self.summaries = []
    
    def add_message(self, role: str, content: str):
        self.messages.append({"role": role, "content": content})
        
        # 超过阈值时触发压缩
        if len(self.messages) >= self.threshold * 2:
            self._compress_oldest()
    
    def _compress_oldest(self):
        # 取出最早的一半消息
        old_messages = self.messages[:self.threshold]
        self.messages = self.messages[self.threshold:]
        
        # 让模型生成摘要
        text = "\n".join([f"{m['role']}: {m['content']}" for m in old_messages])
        response = openai.chat.completions.create(
            model=self.summary_model,
            messages=[
                {"role": "system", "content": "将以下对话压缩成2-3句话的摘要，保留用户的核心意图和关键信息。"},
                {"role": "user", "content": text}
            ],
            max_tokens=200
        )
        
        summary = response.choices[0].message.content
        self.summaries.append(summary)
    
    def get_context(self) -> list:
        context = []
        
        # 添加所有历史摘要
        for i, summary in enumerate(self.summaries):
            context.append({
                "role": "system",
                "content": f"[历史对话摘要 {i+1}] {summary}"
            })
        
        # 添加最近的原始消息
        context.extend(self.messages)
        return context

# 使用示例
roller = RollingSummary(compress_threshold=20)

for i in range(50):
    roller.add_message("user", f"用户第 {i+1} 轮的问题...")
    roller.add_message("assistant", f"助手第 {i+1} 轮的回答...")

context = roller.get_context()
# 结果：2 个摘要 + 最近 10 轮的原始对话
print(f"摘要数量: {len(roller.summaries)}")
print(f"最近消息: {len(roller.messages)}")
print(f"上下文总长度: {len(context)}")

3.3 摘要 Prompt 模板

不同场景可能需要不同的摘要策略：

通用对话摘要：

将以下对话压缩成 2-3 句话的摘要。
保留：用户的核心需求、关键决策、重要约束条件
丢弃：闲聊内容、重复信息、已解决的问题

客服场景摘要：

将以下客服对话压缩成摘要。
必须保留：用户的原始问题、已确认的解决方案、待处理的工单
格式：[问题] [状态] [下一步]

代码协作摘要：

将以下关于代码的对话压缩成摘要。
必须保留：代码库结构、当前修改的文件、未解决的 bug、技术决策

3.4 优缺点分析

维度	说明
实现难度	⭐⭐ 中等，需要调用 LLM 生成摘要
额外成本	每次压缩需要一次 LLM 调用（用轻量模型如 GPT-4o-mini，成本很低）
延迟影响	压缩时有额外延迟（可异步执行）
记忆能力	保留了核心意图，但细节会丢失
信息损失	具体数字、原始措辞、精确数据可能丢失

3.5 适用场景

绝大多数普通多轮对话
客服机器人
个人助手
需要一定记忆但对精确度要求不极端的场景

四、方案 3：RAG 检索增强生成

4.1 原理

RAG（Retrieval-Augmented Generation）的核心思路是：不要试图把所有内容塞进上下文，而是按需检索。

用户提问
    ↓
向量化（Embedding）
    ↓
在向量数据库中检索最相关的 K 个片段
    ↓
只把检索到的片段 + 用户问题送入模型
    ↓
模型基于检索到的信息生成回答

4.2 完整代码实现

import openai
import chromadb
from chromadb.utils import embedding_functions

class ConversationRAG:
    def __init__(self, collection_name: str = "conversation_history"):
        # 初始化向量数据库
        self.chroma_client = chromadb.Client()
        self.embedding_fn = embedding_functions.OpenAIEmbeddingFunction(
            api_key="your-api-key",
            model_name="text-embedding-3-small"
        )
        self.collection = self.chroma_client.get_or_create_collection(
            name=collection_name,
            embedding_function=self.embedding_fn
        )
        self.conversation_count = 0
    
    def store_turn(self, user_msg: str, assistant_msg: str):
        """存储一轮对话到向量数据库"""
        self.conversation_count += 1
        text = f"用户: {user_msg}\n助手: {assistant_msg}"
        
        self.collection.add(
            documents=[text],
            ids=[f"turn_{self.conversation_count}"],
            metadatas=[{"turn": self.conversation_count}]
        )
    
    def query(self, user_question: str, top_k: int = 5) -> str:
        """检索相关对话并生成回答"""
        # 检索最相关的 K 个片段
        results = self.collection.query(
            query_texts=[user_question],
            n_results=top_k
        )
        
        # 构建上下文
        context_parts = []
        for i, doc in enumerate(results["documents"][0]):
            context_parts.append(f"[相关对话 {i+1}] {doc}")
        
        context = "\n\n".join(context_parts)
        
        # 调用模型生成回答
        response = openai.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": f"基于以下相关对话回答用户问题。如果对话中没有相关信息，请说明。\n\n相关对话:\n{context}"},
                {"role": "user", "content": user_question}
            ]
        )
        
        return response.choices[0].message.content

# 使用示例
rag = ConversationRAG()

# 存储历史对话
conversations = [
    ("我想做一个 AI 工具导航网站", "好的，你需要一个收录 AI 工具、支持分类浏览和搜索的网站。"),
    ("用什么技术栈？", "推荐 Next.js + Supabase + Vercel，这是目前 Vibe Coding 最优方案。"),
    ("需要用户登录吗？", "MVP 阶段建议不做登录，先验证需求。后续再加 Supabase Auth。"),
    ("帮我生成项目骨架", "请用 Cursor IDE 创建 Next.js 项目，输入以下需求描述..."),
]

for user_msg, assistant_msg in conversations:
    rag.store_turn(user_msg, assistant_msg)

# 新用户提问
answer = rag.query("我之前说过要用什么技术栈？")
print(answer)
# → 基于检索到的对话，模型能回答"Next.js + Supabase + Vercel"

4.3 向量数据库选型

数据库	特点	适用场景
ChromaDB	轻量级，嵌入式，零配置	个人项目、原型开发
Pinecone	全托管，高性能	生产环境、大规模数据
Weaviate	开支持向量+关键词混合检索	需要混合检索的场景
pgvector	PostgreSQL 扩展	已有 PostgreSQL 的项目
Milvus	高性能，分布式	大规模企业级应用

4.4 检索质量优化

RAG 的效果完全取决于检索质量。以下是提升检索效果的关键技巧：

1. 文本切分策略

# 不要按固定长度切分，而是按对话轮次切分
# 一轮用户提问 + 一轮助手回答 = 一个chunk
def split_by_turns(messages):
    chunks = []
    for i in range(0, len(messages), 2):
        if i + 1 < len(messages):
            chunk = f"用户: {messages[i]['content']}\n助手: {messages[i+1]['content']}"
            chunks.append(chunk)
    return chunks

2. 混合检索

# 结合向量检索 + 关键词检索
results = collection.query(
    query_texts=[user_question],
    n_results=5,
    where={"turn": {"$gte": recent_turn_threshold}}  # 优先检索最近的对话
)

3. 重排序（Reranking）

# 使用交叉编码器对初步检索结果重排序
from sentence_transformers import CrossEncoder
reranker = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-6-v2")
scores = reranker.predict([(user_question, doc) for doc in retrieved_docs])

4.5 优缺点分析

维度	说明
实现难度	⭐⭐⭐ 较高，需要搭建向量数据库和检索管道
额外成本	向量数据库托管费 + Embedding API 调用费
延迟影响	检索增加约 100-500ms 延迟
记忆能力	理论上无限，按需提取，效果稳定
信息损失	取决于检索质量——检索不到的信息等于不存在

4.6 适用场景

所有生产级 AI 应用
知识库问答
长文档分析
企业级 Agent
需要精确回溯的场景

五、方案 4：扩展原生上下文窗口

5.1 位置编码优化

问题： 模型在训练时见过的序列长度有限，超出长度后位置编码会失效。

RoPE 插值（YaRN）：

YaRN（Yet another RoPE extensioN）是目前最主流的位置编码扩展方法。核心思路是：不是让模型"凭空"处理超长序列，而是对位置编码做插值，让模型能"挤进"更长的序列。

# YaRN 配置示例
# 原始训练长度：4K tokens
# 目标扩展长度：128K tokens
yarn_config = {
    "original_max_position_embeddings": 4096,
    "max_position_embeddings": 131072,  # 128K
    "factor": 32,  # 扩展因子
    "beta_fast": 32,
    "beta_slow": 1,
}

ALiBi 位置编码：

ALiBi（Attention with Linear Biases）不需要训练时指定最大长度，天然支持外推——因为它不依赖绝对位置编码，而是通过线性偏置让远处的 token 注意力自然衰减。

5.2 注意力优化

稀疏注意力（Longformer）：

标准 Transformer 的注意力是 O(n²)，Longformer 通过稀疏注意力模式降到 O(n)：

标准注意力：每个 token 关注所有其他 token  → O(n²)
滑动窗口：  每个 token 只关注附近的 token    → O(n × w)
全局注意力：部分 token 关注所有 token        → O(n × g)
Longformer = 滑动窗口 + 全局注意力            → O(n)

Ring Attention：

Ring Attention 支持多卡分布式处理超长序列。每张 GPU 只处理序列的一个片段，通过环形通信传递 KV Cache：

GPU 0: [token 0-32K]    → 接收 GPU 3 的 KV → 计算注意力
GPU 1: [token 32K-64K]  → 接收 GPU 0 的 KV → 计算注意力
GPU 2: [token 64K-96K]  → 接收 GPU 1 的 KV → 计算注意力
GPU 3: [token 96K-128K] → 接收 GPU 2 的 KV → 计算注意力

5.3 工程优化：PagedAttention

vLLM 的 PagedAttention 是目前长上下文推理的工程标准。

问题： 传统 KV Cache 管理存在严重的显存碎片化问题。

传统方式：
[请求1: 预留 4K tokens ][请求2: 预留 4K tokens ][请求3: 预留 4K tokens ]
实际使用:     2K             实际使用:     1K             实际使用:     3K
浪费空间:     2K             浪费空间:     3K             浪费空间:     1K

PagedAttention（像操作系统管理内存一样管理 KV Cache）：
[页1][页2][页3][页4][页5][页6][页7][页8][页9]
 ↑请求1   ↑请求2   ↑请求3
按需分配，无碎片化，显存利用率接近 100%

效果： PagedAttention 能把相同显存下的并发量提升 2-4 倍，是长上下文推理的工业标准。

5.4 长窗口 ≠ 有效利用

这是最关键的一点。即使技术上支持 128K 上下文，模型对长上下文的利用率并不均匀：

注意力分布（128K 上下文）：

[████████░░░░░░░░░░░░░░░░░░░████████████]
 开头25%      中间50%（注意力急剧下降）   结尾25%
（高注意力）  （低注意力，信息容易丢失）   （高注意力）

Lost in the Middle 现象： 研究表明，模型对长上下文中间部分的信息检索准确率显著下降。这意味着简单地扩大窗口并不能线性提升效果。

5.5 优缺点分析

维度	说明
实现难度	⭐⭐⭐⭐ 最高，涉及模型层面修改
额外成本	训练和推理成本极高
延迟影响	推理延迟随上下文长度增加
记忆能力	原生支持，但存在中段遗忘
信息损失	中间段注意力下降

5.6 适用场景

必须一次性处理超长文本（法律文书全本分析、代码库整体理解）
对中段信息利用率要求不高的场景（主要关注开头和结尾的内容）
有充足预算的场景

六、选型决策树

你的应用需要多长的上下文？
├── 4K 以内（大多数场景）
│   └── 不需要任何优化，直接用模型原生窗口
├── 4K - 32K（短多轮对话）
│   ├── 需要精确回溯？
│   │   ├── 不需要 → 滚动摘要（性价比最高）
│   │   └── 需要 → 滑动窗口 + RAG
│   └── 对话轮数少？
│       └── 滑动窗口（最简单）
├── 32K - 128K（长多轮对话 / 文档分析）
│   ├── 需要精确回溯？
│   │   ├── 是 → RAG（工业标准）
│   │   └── 否 → 滚动摘要 + RAG 组合
│   └── 预算充足？
│       └── 扩展窗口 + RAG 兜底
└── 128K+（超长文本处理）
    └── 扩展窗口（YaRN/ALiBi） + RAG + 滚动摘要

七、生产级架构：三级缓存

实际生产中，最有效的方案是三种方案的组合：

┌──────────────────────────────────────────────────────┐
│                    用户提问                           │
└──────────────────┬───────────────────────────────────┘
                   ↓
┌──────────────────────────────────────────────────────┐
│  第 1 层：滑动窗口（最近 10 轮）                       │
│  ← 直接保留原始对话，零成本                            │
└──────────────────┬───────────────────────────────────┘
                   ↓ 超出 10 轮
┌──────────────────────────────────────────────────────┐
│  第 2 层：滚动摘要（10-50 轮）                        │
│  ← 压缩成摘要，保留核心意图                            │
└──────────────────┬───────────────────────────────────┘
                   ↓ 超出 50 轮
┌──────────────────────────────────────────────────────┐
│  第 3 层：RAG 向量检索（50 轮以上）                    │
│  ← 存入向量数据库，按需检索最相关片段                   │
└──────────────────┬───────────────────────────────────┘
                   ↓
┌──────────────────────────────────────────────────────┐
│  最终上下文 = 摘要 + 最近对话 + 检索片段 → 送入模型     │
└──────────────────────────────────────────────────────┘

三级缓存的 Token 消耗对比

方案	50 轮对话的 Token 消耗	100 轮对话的 Token 消耗
全部保留	~50K tokens	~100K tokens
滑动窗口（10 轮）	~10K tokens	~10K tokens
三级缓存	~15K tokens	~20K tokens
节省比例	70%	80%

三级缓存只比纯滑动窗口多 5-10K tokens（摘要 + 检索片段），但记忆能力远超纯滑动窗口。

八、验证机制：关键信息留存率

不管用什么方案，上线前都要做这个测试：

def test_key_information_retention():
    """测试上下文管理方案的关键信息留存率"""
    
    # 构造测试用例：在对话不同位置植入关键信息
    test_cases = [
        {
            "early_info": "用户预算是 5000 元",
            "late_question": "我之前说的预算是多少？",
            "expected_answer": "5000 元"
        },
        {
            "early_info": "项目截止日期是下周五",
            "late_question": "项目什么时候截止？",
            "expected_answer": "下周五"
        },
        {
            "early_info": "技术栈决定用 Next.js",
            "late_question": "我们选了什么框架？",
            "expected_answer": "Next.js"
        }
    ]
    
    passed = 0
    for case in test_cases:
        # 构造 50 轮对话，在早期植入关键信息
        messages = []
        for i in range(25):
            messages.append({"role": "user", "content": f"第 {i+1} 轮对话"})
            messages.append({"role": "assistant", "content": f"第 {i+1} 轮回答"})
            if i == 5:  # 在第 6 轮植入关键信息
                messages[-2]["content"] = case["early_info"]
        
        # 用被测试的方案处理上下文
        context = your_context_manager.process(messages)
        
        # 提问
        response = ask_model(context, case["late_question"])
        
        if case["expected_answer"] in response:
            passed += 1
    
    retention_rate = passed / len(test_cases)
    print(f"关键信息留存率: {retention_rate:.0%}")
    assert retention_rate >= 0.9, "留存率低于 90%，需要优化方案"

九、总结

方案	成本	效果	复杂度	适用场景
滑动窗口	零	基础	⭐	临时对话、一次性问答
滚动摘要	低	良好	⭐⭐	大多数多轮对话
RAG	中	优秀	⭐⭐⭐	生产级应用、知识库
扩展窗口	高	优秀	⭐⭐⭐⭐	超长文本处理

一句话总结： 没有银弹。实际生产中，"三级缓存"（滑动窗口 + 滚动摘要 + RAG）是性价比最高的组合方案。

📌 关联阅读：

面试场景回答：面试官问你：如何解决大模型的上下文长度限制——标准回答框架

Vibe Coding 系列：2026 年 Vibe Coding 技术栈选型指南

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

大模型上下文长度限制完全指南：从原理到工程落地的 4 种方案

一、问题根源：为什么上下文长度是瓶颈？

1.1 Transformer 的自注意力机制

1.2 O(n²) 到底意味着什么？

1.3 Token = 真金白银

1.4 长窗口 ≠ 有效利用

二、方案 1：滑动窗口（Sliding Window）

2.1 原理

2.2 代码实现

2.3 优缺点分析

2.4 适用场景

三、方案 2：滚动摘要（Summary Compression）

3.1 原理

3.2 代码实现

3.3 摘要 Prompt 模板

3.4 优缺点分析

3.5 适用场景

四、方案 3：RAG 检索增强生成

4.1 原理

4.2 完整代码实现

4.3 向量数据库选型

4.4 检索质量优化

4.5 优缺点分析

4.6 适用场景

五、方案 4：扩展原生上下文窗口

5.1 位置编码优化

5.2 注意力优化

5.3 工程优化：PagedAttention

5.4 长窗口 ≠ 有效利用

5.5 优缺点分析

5.6 适用场景

六、选型决策树

七、生产级架构：三级缓存

三级缓存的 Token 消耗对比

八、验证机制：关键信息留存率

九、总结

相关推荐

面试官问你：如何解决大模型的上下文长度限制——标准回答框架

面试官问你：RAG 如何处理 PDF——别再说转文本切片了

生产级 PDF RAG 完全指南：从解析到评测的四层架构实战