Harness Engineering:让 AI Agent 可靠工作的完整方法论

来源:《Learn Harness Engineering》sanbuphy 著(共127页)| 整理时间:2026-05-11 核心结论:Agent 效果不好,不一定是模型的问题,很可能是你的 Harness 不够好。 一、核心概念:什么是 Harness Engineering? 关键公式 Agent = Model + Harness Harness = 模型权重之外的一切工程基础设施,包括: 指令文件(AGENTS.md / CLAUDE.md) 工具访问权限 运行环境配置 状态持久化机制 验证与反馈回路 三次范式迁移 年份 范式 核心问题 2023 Prompt Engineering 如何跟模型说话 2024-25 Context Engineering 给模型看什么 2026 Harness Engineering 如何让 Agent 在真实世界持续可靠地工作 反直觉前提 同一个模型(Opus 4.5),同一段提示词(“做一个 2D 复古游戏编辑器”): 裸跑:20分钟,花 $9,游戏核心功能跑不起来 配上完整 Harness(planner + generator + evaluator):6小时,花 $200,游戏可以正常游玩 模型没变,变的是马鞍。 二、Harness 五子系统模型(“厨房比喻”) 子系统 类比 核心内容 指令子系统 菜谱架 AGENTS.md:项目概览、技术栈、硬约束、文档链接 工具子系统 刀具架 Agent 的工具访问权限(最小权限原则) 环境子系统 灶台 依赖锁定、版本固定、环境可重现(Docker/devcontainer) 状态子系统 备菜台 PROGRESS.md:已完成/进行中/已知问题/下一步 反馈子系统 出菜检查口 显式验证命令:pytest、mypy --strict、ruff check 投入产出比最高的是反馈子系统——先把验证命令写清楚。 ...

May 11, 2026 · 3 min
S
Symbol's AI
在线 · GLM-5
你好!我是博主的 AI 分身,可以和你聊聊 AI 产品、大模型应用,或者随便聊聊~