AI Engineering

Harness Engineering：让 AI Agent 可靠工作的完整方法论

来源：《Learn Harness Engineering》sanbuphy 著（共127页）| 整理时间：2026-05-11 核心结论：Agent 效果不好，不一定是模型的问题，很可能是你的 Harness 不够好。一、核心概念：什么是 Harness Engineering？关键公式 Agent = Model + Harness Harness = 模型权重之外的一切工程基础设施，包括：指令文件（AGENTS.md / CLAUDE.md）工具访问权限运行环境配置状态持久化机制验证与反馈回路三次范式迁移年份范式核心问题 2023 Prompt Engineering 如何跟模型说话 2024-25 Context Engineering 给模型看什么 2026 Harness Engineering 如何让 Agent 在真实世界持续可靠地工作反直觉前提同一个模型（Opus 4.5），同一段提示词（“做一个 2D 复古游戏编辑器”）：裸跑：20分钟，花 $9，游戏核心功能跑不起来配上完整 Harness（planner + generator + evaluator）：6小时，花 $200，游戏可以正常游玩模型没变，变的是马鞍。二、Harness 五子系统模型（“厨房比喻”）子系统类比核心内容指令子系统菜谱架 AGENTS.md：项目概览、技术栈、硬约束、文档链接工具子系统刀具架 Agent 的工具访问权限（最小权限原则）环境子系统灶台依赖锁定、版本固定、环境可重现（Docker/devcontainer）状态子系统备菜台 PROGRESS.md：已完成/进行中/已知问题/下一步反馈子系统出菜检查口显式验证命令：pytest、mypy --strict、ruff check 投入产出比最高的是反馈子系统——先把验证命令写清楚。 ...

假如 LLM 无限上下文了，RAG 还有意义吗？

来源：抖音@老傅1024 视频解析 | 整理时间：2026-05-11 核心结论：RAG 不会消亡，而是在进化。问题的来源上下文窗口狂飙：4K → 128K → 200万 token（Kimi），很多人自然推论——直接把所有知识塞进去不就好了？还要 RAG 干嘛？这个想法错在三个层面。 RAG 依然有意义的 5 个理由 ① 成本：全量投喂烧钱每轮对话都把全量文档重新喂一遍，token 消耗是指数级的。RAG 只取最相关的 top-k 片段，成本差 10~100 倍。 ② “Lost in the Middle"注意力偏差大海捞针实验（Needle in a Haystack）证明：针越多，查全率越低海越长，中间的针越容易丢失尾部信息注意力权重 > 中间信息（Recency Bias）根本原因：语言模型用"预测下一个 token"训练，天然偏向关注最近上下文。这是训练范式带来的结构性缺陷，不是调参能解决的。 ③ 闭卷 vs 开卷考试模式特点问题纯 LLM（闭卷）知识压缩在参数里容易幻觉、无法溯源 RAG（开卷）先查资料再回答答案有据可查，可验证检索到的事实在生成时权重极高，有效压制幻觉。 ④ RAG 的应用远不止私有知识库 Few-shot 示例召回：对话机器人的语气示例通过 RAG 动态选取工具检索：Agent 有上百个工具时，先用 RAG 筛选，避免全量工具描述导致误选率上升多跳推理链：GraphRAG 通过显式关系图支持复杂推理 ⑤ 商业护城河把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走，用户必须来你的平台查询 → 流量留存。 ...

Agent 评测到底怎么做？告别「感觉它还行」

来源：抖音@老傅1024 视频解析 | 整理时间：2026-05-11 核心来源：Anthropic 工程博客《Demystifying Evals for AI Agents》为什么"感觉它还行"不够用？典型的痛点路径：改了个 Prompt → 手动跑几个 case → 感觉没问题 → 上线 → 用户反馈"变蠢了" → 无法定位是这次改动还是本来就有问题 → 修一个 Bug → 可能引入新 Bug → 永远在"救火" 没有评测 = 盲飞。根本无法区分"模型随机噪声"还是"真正退步"。核心概念体系（术语表）术语含义 Task（任务）一个测试用例，有明确输入和成功标准 Trial（试验）对任务的一次完整执行（需多次以消除随机性） Grader（评分器）评估输出质量的逻辑单元 Transcript（记录）全程实录：对话 + 工具调用 + 推理过程 Outcome（结果）最终环境状态 —— 结果 ≠ 声称（Agent 说"已预订"，数据库里有吗？） Eval Harness 运行评测的基础设施（发送指令、记日志、汇总分数）三种评分器：组合使用 ① 基于代码的评分器（快、准、客观）字符串匹配 / 单元测试 / 静态分析 / 工具调用验证 ...