上下文 | Symbol's Notes

来源：抖音@老傅1024 视频解析 | 整理时间：2026-05-11 核心结论：RAG 不会消亡，而是在进化。问题的来源上下文窗口狂飙：4K → 128K → 200万 token（Kimi），很多人自然推论——直接把所有知识塞进去不就好了？还要 RAG 干嘛？这个想法错在三个层面。 RAG 依然有意义的 5 个理由 ① 成本：全量投喂烧钱每轮对话都把全量文档重新喂一遍，token 消耗是指数级的。RAG 只取最相关的 top-k 片段，成本差 10~100 倍。 ② “Lost in the Middle"注意力偏差大海捞针实验（Needle in a Haystack）证明：针越多，查全率越低海越长，中间的针越容易丢失尾部信息注意力权重 > 中间信息（Recency Bias）根本原因：语言模型用"预测下一个 token"训练，天然偏向关注最近上下文。这是训练范式带来的结构性缺陷，不是调参能解决的。 ③ 闭卷 vs 开卷考试模式特点问题纯 LLM（闭卷）知识压缩在参数里容易幻觉、无法溯源 RAG（开卷）先查资料再回答答案有据可查，可验证检索到的事实在生成时权重极高，有效压制幻觉。 ④ RAG 的应用远不止私有知识库 Few-shot 示例召回：对话机器人的语气示例通过 RAG 动态选取工具检索：Agent 有上百个工具时，先用 RAG 筛选，避免全量工具描述导致误选率上升多跳推理链：GraphRAG 通过显式关系图支持复杂推理 ⑤ 商业护城河把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走，用户必须来你的平台查询 → 流量留存。 ...