LLM

来源：抖音@老傅1024 视频解析 | 整理时间：2026-05-11 核心结论：RAG 不会消亡，而是在进化。问题的来源上下文窗口狂飙：4K → 128K → 200万 token（Kimi），很多人自然推论——直接把所有知识塞进去不就好了？还要 RAG 干嘛？这个想法错在三个层面。 RAG 依然有意义的 5 个理由 ① 成本：全量投喂烧钱每轮对话都把全量文档重新喂一遍，token 消耗是指数级的。RAG 只取最相关的 top-k 片段，成本差 10~100 倍。 ② “Lost in the Middle"注意力偏差大海捞针实验（Needle in a Haystack）证明：针越多，查全率越低海越长，中间的针越容易丢失尾部信息注意力权重 > 中间信息（Recency Bias）根本原因：语言模型用"预测下一个 token"训练，天然偏向关注最近上下文。这是训练范式带来的结构性缺陷，不是调参能解决的。 ③ 闭卷 vs 开卷考试模式特点问题纯 LLM（闭卷）知识压缩在参数里容易幻觉、无法溯源 RAG（开卷）先查资料再回答答案有据可查，可验证检索到的事实在生成时权重极高，有效压制幻觉。 ④ RAG 的应用远不止私有知识库 Few-shot 示例召回：对话机器人的语气示例通过 RAG 动态选取工具检索：Agent 有上百个工具时，先用 RAG 筛选，避免全量工具描述导致误选率上升多跳推理链：GraphRAG 通过显式关系图支持复杂推理 ⑤ 商业护城河把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走，用户必须来你的平台查询 → 流量留存。 ...

为什么 Prompt Engineering 依然重要？有人说 Prompt Engineering 是过渡期产物，模型越来越强就不需要了。我不完全同意。模型确实在进步，但 prompt 本质上是人和 AI 之间的 protocol。就像 API 设计不会因为后端变强就不重要一样，prompt 设计关乎的是"如何精确表达意图"——这个需求永远存在。 Core Patterns 1. Zero-Shot：直接了当最简单的方式，直接告诉模型你要什么：你是一个专业的文案编辑。请将以下用户评论改写为正式的产品评测，保持核心观点不变，语气客观中立。用户评论：这个耳机音质太炸了低音给力就是戴久了耳朵疼适用场景：任务明确、模型能力已经很强的领域（翻译、摘要、格式转换）。 2. Few-Shot：以身作则给几个 example，让模型学会 pattern：请根据用户的自然语言描述，生成搜索查询。示例1：输入：最近有什么好看的科幻电影输出：2026 高分科幻电影推荐示例2：输入：Python 怎么读取 Excel 输出：Python pandas read_excel 教程现在请处理：输入：怎么把图片背景去掉关键技巧：examples 的多样性比数量更重要。3 个覆盖不同 pattern 的例子 > 10 个雷同的例子。 3. Chain-of-Thought (CoT)：让模型"想"出来请分析这款产品的市场定位是否合理。请按以下步骤思考： 1. 首先识别目标用户群体 2. 分析竞品格局 3. 评估差异化优势 4. 给出结论和建议产品描述：一款面向 Z 世代的 AI 绘画社交 App... CoT 的核心不是让模型"更聪明"，而是强制模型经过中间推理步骤，减少跳跃式回答导致的错误。 ...

假如 LLM 无限上下文了，RAG 还有意义吗？

Prompt Engineering 实战指南：从 Zero-Shot 到 Multi-Agent