Eval | Symbol's Notes

来源：抖音@老傅1024 视频解析 | 整理时间：2026-05-11 核心来源：Anthropic 工程博客《Demystifying Evals for AI Agents》为什么"感觉它还行"不够用？典型的痛点路径：改了个 Prompt → 手动跑几个 case → 感觉没问题 → 上线 → 用户反馈"变蠢了" → 无法定位是这次改动还是本来就有问题 → 修一个 Bug → 可能引入新 Bug → 永远在"救火" 没有评测 = 盲飞。根本无法区分"模型随机噪声"还是"真正退步"。核心概念体系（术语表）术语含义 Task（任务）一个测试用例，有明确输入和成功标准 Trial（试验）对任务的一次完整执行（需多次以消除随机性） Grader（评分器）评估输出质量的逻辑单元 Transcript（记录）全程实录：对话 + 工具调用 + 推理过程 Outcome（结果）最终环境状态 —— 结果 ≠ 声称（Agent 说"已预订"，数据库里有吗？） Eval Harness 运行评测的基础设施（发送指令、记日志、汇总分数）三种评分器：组合使用 ① 基于代码的评分器（快、准、客观）字符串匹配 / 单元测试 / 静态分析 / 工具调用验证 ...