Harness Engineering

来源：《Learn Harness Engineering》sanbuphy 著（共127页）| 整理时间：2026-05-11 核心结论：Agent 效果不好，不一定是模型的问题，很可能是你的 Harness 不够好。一、核心概念：什么是 Harness Engineering？关键公式 Agent = Model + Harness Harness = 模型权重之外的一切工程基础设施，包括：指令文件（AGENTS.md / CLAUDE.md）工具访问权限运行环境配置状态持久化机制验证与反馈回路三次范式迁移年份范式核心问题 2023 Prompt Engineering 如何跟模型说话 2024-25 Context Engineering 给模型看什么 2026 Harness Engineering 如何让 Agent 在真实世界持续可靠地工作反直觉前提同一个模型（Opus 4.5），同一段提示词（“做一个 2D 复古游戏编辑器”）：裸跑：20分钟，花 $9，游戏核心功能跑不起来配上完整 Harness（planner + generator + evaluator）：6小时，花 $200，游戏可以正常游玩模型没变，变的是马鞍。二、Harness 五子系统模型（“厨房比喻”）子系统类比核心内容指令子系统菜谱架 AGENTS.md：项目概览、技术栈、硬约束、文档链接工具子系统刀具架 Agent 的工具访问权限（最小权限原则）环境子系统灶台依赖锁定、版本固定、环境可重现（Docker/devcontainer）状态子系统备菜台 PROGRESS.md：已完成/进行中/已知问题/下一步反馈子系统出菜检查口显式验证命令：pytest、mypy --strict、ruff check 投入产出比最高的是反馈子系统——先把验证命令写清楚。 ...