Harness Engineering:让 AI Agent 可靠工作的完整方法论

来源:《Learn Harness Engineering》sanbuphy 著(共127页)| 整理时间:2026-05-11 核心结论:Agent 效果不好,不一定是模型的问题,很可能是你的 Harness 不够好。 一、核心概念:什么是 Harness Engineering? 关键公式 Agent = Model + Harness Harness = 模型权重之外的一切工程基础设施,包括: 指令文件(AGENTS.md / CLAUDE.md) 工具访问权限 运行环境配置 状态持久化机制 验证与反馈回路 三次范式迁移 年份 范式 核心问题 2023 Prompt Engineering 如何跟模型说话 2024-25 Context Engineering 给模型看什么 2026 Harness Engineering 如何让 Agent 在真实世界持续可靠地工作 反直觉前提 同一个模型(Opus 4.5),同一段提示词(“做一个 2D 复古游戏编辑器”): 裸跑:20分钟,花 $9,游戏核心功能跑不起来 配上完整 Harness(planner + generator + evaluator):6小时,花 $200,游戏可以正常游玩 模型没变,变的是马鞍。 二、Harness 五子系统模型(“厨房比喻”) 子系统 类比 核心内容 指令子系统 菜谱架 AGENTS.md:项目概览、技术栈、硬约束、文档链接 工具子系统 刀具架 Agent 的工具访问权限(最小权限原则) 环境子系统 灶台 依赖锁定、版本固定、环境可重现(Docker/devcontainer) 状态子系统 备菜台 PROGRESS.md:已完成/进行中/已知问题/下一步 反馈子系统 出菜检查口 显式验证命令:pytest、mypy --strict、ruff check 投入产出比最高的是反馈子系统——先把验证命令写清楚。 ...

May 11, 2026 · 3 min

假如 LLM 无限上下文了,RAG 还有意义吗?

来源:抖音@老傅1024 视频解析 | 整理时间:2026-05-11 核心结论:RAG 不会消亡,而是在进化。 问题的来源 上下文窗口狂飙:4K → 128K → 200万 token(Kimi),很多人自然推论——直接把所有知识塞进去不就好了?还要 RAG 干嘛? 这个想法错在三个层面。 RAG 依然有意义的 5 个理由 ① 成本:全量投喂烧钱 每轮对话都把全量文档重新喂一遍,token 消耗是指数级的。RAG 只取最相关的 top-k 片段,成本差 10~100 倍。 ② “Lost in the Middle"注意力偏差 大海捞针实验(Needle in a Haystack)证明: 针越多,查全率越低 海越长,中间的针越容易丢失 尾部信息注意力权重 > 中间信息(Recency Bias) 根本原因:语言模型用"预测下一个 token"训练,天然偏向关注最近上下文。这是训练范式带来的结构性缺陷,不是调参能解决的。 ③ 闭卷 vs 开卷考试 模式 特点 问题 纯 LLM(闭卷) 知识压缩在参数里 容易幻觉、无法溯源 RAG(开卷) 先查资料再回答 答案有据可查,可验证 检索到的事实在生成时权重极高,有效压制幻觉。 ④ RAG 的应用远不止私有知识库 Few-shot 示例召回:对话机器人的语气示例通过 RAG 动态选取 工具检索:Agent 有上百个工具时,先用 RAG 筛选,避免全量工具描述导致误选率上升 多跳推理链:GraphRAG 通过显式关系图支持复杂推理 ⑤ 商业护城河 把私有内容放进 RAG + 加检索频率限制 → AI 爬虫抓不走,用户必须来你的平台查询 → 流量留存。 ...

May 11, 2026 · 1 min

Agent 评测到底怎么做?告别「感觉它还行」

来源:抖音@老傅1024 视频解析 | 整理时间:2026-05-11 核心来源:Anthropic 工程博客《Demystifying Evals for AI Agents》 为什么"感觉它还行"不够用? 典型的痛点路径:改了个 Prompt → 手动跑几个 case → 感觉没问题 → 上线 → 用户反馈"变蠢了" → 无法定位是这次改动还是本来就有问题 → 修一个 Bug → 可能引入新 Bug → 永远在"救火" 没有评测 = 盲飞。根本无法区分"模型随机噪声"还是"真正退步"。 核心概念体系(术语表) 术语 含义 Task(任务) 一个测试用例,有明确输入和成功标准 Trial(试验) 对任务的一次完整执行(需多次以消除随机性) Grader(评分器) 评估输出质量的逻辑单元 Transcript(记录) 全程实录:对话 + 工具调用 + 推理过程 Outcome(结果) 最终环境状态 —— 结果 ≠ 声称(Agent 说"已预订",数据库里有吗?) Eval Harness 运行评测的基础设施(发送指令、记日志、汇总分数) 三种评分器:组合使用 ① 基于代码的评分器(快、准、客观) 字符串匹配 / 单元测试 / 静态分析 / 工具调用验证 ...

May 11, 2026 · 1 min
S
Symbol's AI
在线 · GLM-5
你好!我是博主的 AI 分身,可以和你聊聊 AI 产品、大模型应用,或者随便聊聊~