来源:抖音@老傅1024 视频解析 | 整理时间:2026-05-11 核心结论:RAG 不会消亡,而是在进化。


问题的来源

上下文窗口狂飙:4K → 128K → 200万 token(Kimi),很多人自然推论——直接把所有知识塞进去不就好了?还要 RAG 干嘛?

这个想法错在三个层面。


RAG 依然有意义的 5 个理由

① 成本:全量投喂烧钱

每轮对话都把全量文档重新喂一遍,token 消耗是指数级的。RAG 只取最相关的 top-k 片段,成本差 10~100 倍。

② “Lost in the Middle"注意力偏差

大海捞针实验(Needle in a Haystack)证明:

  • 针越多,查全率越低
  • 海越长,中间的针越容易丢失
  • 尾部信息注意力权重 > 中间信息(Recency Bias)

根本原因:语言模型用"预测下一个 token"训练,天然偏向关注最近上下文。这是训练范式带来的结构性缺陷,不是调参能解决的。

③ 闭卷 vs 开卷考试

模式特点问题
纯 LLM(闭卷)知识压缩在参数里容易幻觉、无法溯源
RAG(开卷)先查资料再回答答案有据可查,可验证

检索到的事实在生成时权重极高,有效压制幻觉

④ RAG 的应用远不止私有知识库

  • Few-shot 示例召回:对话机器人的语气示例通过 RAG 动态选取
  • 工具检索:Agent 有上百个工具时,先用 RAG 筛选,避免全量工具描述导致误选率上升
  • 多跳推理链:GraphRAG 通过显式关系图支持复杂推理

⑤ 商业护城河

把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走,用户必须来你的平台查询 → 流量留存。


RAG 的进化路线

2020  Naive RAG
       ↓  模型弱、检索差、效果一般
Advanced RAG
       ↓  意图改写 + 混合检索 + 重排序,召回质量大幅提升
Graph RAG
       ↓  知识图谱显式化实体关系,支持多跳推理(A→B→C)
Agentic RAG(当前前沿)
       ↓  RAG 变成 Agent 的一个"工具"
       ↓  模型自主决策:何时检索?检索够了吗?与已有知识冲突怎么办?
       ↓  代表:DeepResearch + RL 端到端训练
多模态 RAG(扩展中)
          图、表格、PDF 都是知识来源

一句话结论

“无限上下文"是 LLM 的一种能力,RAG 是 LLM 使用这种能力的组织方式。两者是协同关系,不是替代关系。

就像查长文档——没人会从头读到尾,一定用目录 + Ctrl+F 定位(这就是 RAG 的逻辑)。


对 Agent 产品的启发

  • Agent 调用工具时,工具越多越要 RAG 预筛,不然传给模型的 context 爆炸
  • 知识库类 Agent 场景,RAG + Agentic 架构比纯长上下文便宜太多
  • 竞品如果全靠堆上下文,用 Agentic RAG 在精度 + 成本上都能打赢

整理人:hongxinbo | 来源:抖音@老傅1024