来源:抖音@老傅1024 视频解析 | 整理时间:2026-05-11 核心结论:RAG 不会消亡,而是在进化。
问题的来源
上下文窗口狂飙:4K → 128K → 200万 token(Kimi),很多人自然推论——直接把所有知识塞进去不就好了?还要 RAG 干嘛?
这个想法错在三个层面。
RAG 依然有意义的 5 个理由
① 成本:全量投喂烧钱
每轮对话都把全量文档重新喂一遍,token 消耗是指数级的。RAG 只取最相关的 top-k 片段,成本差 10~100 倍。
② “Lost in the Middle"注意力偏差
大海捞针实验(Needle in a Haystack)证明:
- 针越多,查全率越低
- 海越长,中间的针越容易丢失
- 尾部信息注意力权重 > 中间信息(Recency Bias)
根本原因:语言模型用"预测下一个 token"训练,天然偏向关注最近上下文。这是训练范式带来的结构性缺陷,不是调参能解决的。
③ 闭卷 vs 开卷考试
| 模式 | 特点 | 问题 |
|---|---|---|
| 纯 LLM(闭卷) | 知识压缩在参数里 | 容易幻觉、无法溯源 |
| RAG(开卷) | 先查资料再回答 | 答案有据可查,可验证 |
检索到的事实在生成时权重极高,有效压制幻觉。
④ RAG 的应用远不止私有知识库
- Few-shot 示例召回:对话机器人的语气示例通过 RAG 动态选取
- 工具检索:Agent 有上百个工具时,先用 RAG 筛选,避免全量工具描述导致误选率上升
- 多跳推理链:GraphRAG 通过显式关系图支持复杂推理
⑤ 商业护城河
把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走,用户必须来你的平台查询 → 流量留存。
RAG 的进化路线
2020 Naive RAG
↓ 模型弱、检索差、效果一般
Advanced RAG
↓ 意图改写 + 混合检索 + 重排序,召回质量大幅提升
Graph RAG
↓ 知识图谱显式化实体关系,支持多跳推理(A→B→C)
Agentic RAG(当前前沿)
↓ RAG 变成 Agent 的一个"工具"
↓ 模型自主决策:何时检索?检索够了吗?与已有知识冲突怎么办?
↓ 代表:DeepResearch + RL 端到端训练
多模态 RAG(扩展中)
图、表格、PDF 都是知识来源
一句话结论
“无限上下文"是 LLM 的一种能力,RAG 是 LLM 使用这种能力的组织方式。两者是协同关系,不是替代关系。
就像查长文档——没人会从头读到尾,一定用目录 + Ctrl+F 定位(这就是 RAG 的逻辑)。
对 Agent 产品的启发
- Agent 调用工具时,工具越多越要 RAG 预筛,不然传给模型的 context 爆炸
- 知识库类 Agent 场景,RAG + Agentic 架构比纯长上下文便宜太多
- 竞品如果全靠堆上下文,用 Agentic RAG 在精度 + 成本上都能打赢
整理人:hongxinbo | 来源:抖音@老傅1024