来源:「厂内 AI 实践学习档案」2026-04-19 ~ 2026-05-11 | 30+ 篇实践案例提炼 整理人:hongxinbo | 整理时间:2026-05-11
一、最高频共识:AI 质量上限定律
AI 生成的质量上限 = 人的规约/设计文档的质量上限,与模型能力无关。
这是出现频率最高(8+ 次)的核心结论,被以下实践反复印证:
- Spec-Driven 四层规约:「两天两万行代码只出一个 bug」的底层密码
- Design Token:有 Token,AI Demo 还原度 20% → 90%+
- 0 行手写代码反而要求更多深度思考
- NMLeak、OOM 排查:Plan 模式前置 = 结构化对齐 > 直接生成
- Superpowers 强制澄清流程:纪律 > 智力
实操结论:每个功能开始前花几百字写清楚——问题背景、边界条件、验收标准、不做什么。前置思考 1 分钟,节省后期 10 倍返工时间。
二、Spec-Driven 规约体系(四层)
适用场景:长期项目、核心系统、多人协作
架构层(Architecture)
↓ 服务边界、数据流向、技术选型
契约层(Contract)
↓ 接口定义、数据结构、依赖关系
具体规格层(Specification)
↓ 每个功能的行为描述、边界条件、异常处理
Story 交付清单(Stories)
↓ 可验证的最小交付单元,含验收标准
核心价值:把脑子里的隐含假设显性化为可执行规约,人定义边界、AI 填充实现。
「反向采访」技术:把问题+背景+架构给 AI,让它以架构师角色主动向你提问,把隐含假设全挖出来——比直接命令 AI 更有效。
三、Vibe Coding vs Spec Coding 的适用边界
| 维度 | Vibe Coding | Spec Coding |
|---|---|---|
| 适用场景 | 短期/小功能/快速验证/Demo | 长期/核心系统/多人协作/生产级 |
| 前置投入 | 低 | 高(方案和 Spec 前置近 4 天) |
| 输出质量 | 不稳定 | 「两天两万行代码只出 1 个 bug」 |
| 返工风险 | 高(数据库设计/接口划分等架构决策一旦 Vibe 进去需完全重做) | 低 |
| PM 边界 | PM Vibe 1 天做 Demo,RD 花 1 周重构核心 | PM 定义 WHAT,AI 负责 HOW |
关键洞察:速度感是假象,架构判断才是 PM 真正不可让渡的核心价值。
四、Harness Engineering 五子系统(Agent 工程化框架)
详见独立文档《Harness Engineering:让AI Agent可靠工作的完整方法论》
速查核心:
Agent = Model + Harness
Harness = 指令(AGENTS.md) + 工具 + 环境 + 状态(PROGRESS.md) + 反馈(验证命令)
五个关键规则:
- WIP=1:任何时刻只允许一个任务进行中,做完再开始下一个
- File As Progress:所有任务进度持久化到文件,中断可从断点续传(状态机:TODO→ANALYZING→ANALYZED→EXECUTING→DONE)
- 跨会话独立评审:做事的 Agent 和评价的 Agent 必须跨会话——同会话内有「自我说服效应」
- 三层终止校验:语法通过 → 运行时行为通过 → 端到端系统通过
- 冷启动测试:全新会话只看仓库,能否回答「是什么/怎么跑/怎么验/进度如何」
五、Vibe Coding 效率公式与反直觉
效率真公式:
有效交付速度 = AI 生成速度 × (1 − 验证耗时占比)
代码生成与验证时间比 = 1:3 到 1:5,验证成本是 Vibe Coding 的生死线。
4S Prompt 原则(降低验证成本的起点):
- Single:一次只做一件事
- Specific:描述越具体越好
- Short:上下文越精准越少越好
- Surround:给足边界约束
Prompt 上省的每一秒,会在验证阶段以 10 倍 Debug 时间偿还。
六、AI 协作角色分工新范式
「人负责 WHAT,AI 负责 HOW」
- PM/架构师定义问题边界、验收标准、约束条件
- AI 在边界内自主选型、实现、验证
- 人的核心价值 = 辨别和取舍,而非发明创造
「2+2+2 并行范式」(团队协作)
- PM 输出可运行原型(Vibe Coding)
- UE 调优代码库(70% 基础 UI 直接复用)
- RD 专注业务逻辑(消灭需求翻译层)
关键洞察:每个角色都用 AI 提效,但整体迭代周期不一定快——单点提效的上限是「翻译成本」消失,真正加速要靠整链路并行。
七、量化验收:AI 自主迭代的基础设施
没有可量化目标,AI 不知道什么时候该停、什么时候该继续。
典型量化方案:
- AutoResearch 量化门禁:85/100 分才通过,多 Agent 对抗迭代(Claude/Codex/OpenCode 轮流实现+交叉审核)
- Skill 质量 8 维评分:S/A 上榜,B 改进,C 以下退回
- 5 维加权评分 ≥ 9.0 才算合格
- redis-proxy 实战:2 天/57 倍 QPS/93 项验证/14 个 BUG 发现——「基线→审计→分阶段→量化验证」方法论
量化基线是 AI 协作工程的核心基础设施——把「好不好」从主观感觉变成自动化数字。
八、知识资产化:规模化 AI 研发的真正壁垒
AI Coding 在复杂工业场景成功率只有 20%(SWE-Bench 数据)。破解这 20% 不是换更强的模型,而是把企业内部知识系统性地资产化。
小刚 Claw「知识资产化+反馈自动化」双轮:
- 把代码库知识结构化为层级知识 + 套路 Skills
- 通过任务自动回溯优化套路
- 形成「越用越好」飞轮
Skills 最大价值:把专家经验 SOP 化,让任何人 5 分钟复现(周报分析 1-2 小时→5 分钟)。经验壁垒不再是护城河,Skills 才是真正的知识平权工具。
九、Rules 设计:触发机制 > 内容本身
完美的 Rules 如果不被触发,价值为零。先测试触发,再测试执行。
Rules 四分类框架(来自「平台端到端 AI 内化思路」):
- 触发型 Rules:特定条件自动激活
- 约束型 Rules:硬边界,不可违反
- 引导型 Rules:软建议,提升输出质量
- 上下文型 Rules:注入背景知识
AI 系统设计的可靠性瓶颈往往不在执行阶段,而在触发条件的精准设计。
十、ContextEngine:上下文管理架构原则
「不可变存储才是唯一事实来源,摘要只是缓存。」
两大原则:
- 不可变性:原始上下文永不修改,只追加
- 可插拔性:上下文管理从硬编码变为生命周期钩子,可替换不同的摘要/压缩策略
实操:File As Progress + 细粒度状态机,任务规模从百文件极限扩展到千文件可靠。
十一、AI 诊断工程:发现人看不见的问题
AI 代码审计的独特优势:
- 几秒追踪跨模块完整数据流(人工需要数小时)
- 不区分注释代码 vs 正常代码——能发现人脑自动跳过的「被注释掉的并发控制」
- OOM 排查:AI 主动提出了工程师没想到的架构洞察(「先提交备写再做主写」实现天然并行)
AI 协作双场景范式:
- 构建型(NMLeak):人拆架构 + AI 逐模块实现,「描述问题不指定方案」让 AI 自主选型
- 诊断型(OOM 排查):人提假设 + AI 验证 + 人纠正因果,「先事实后推论」锚定分析
十二、全流程自动化:边界重划而非渐进提效
「给它一个 Issue 编号」= 唯一的 human-in-the-loop
已实现的全流程:
Issue 编号 → PRD 编写 → 任务拆解 → 代码实现 → PR 合入 → iCafe 卡片关闭
一个 shell 脚本可以跑通,这在 2026 年已是现实。
YAML 作为跨角色机器可读语言:消灭 PM/UE/RD 之间的「重复理解需求」翻译层。PM 需求文档质量成为整条流水线的唯一质量上限。
十三、Superpowers「强制澄清」纪律流程
五步强制流程:澄清 → 设计 → 规划 → 执行 → 验证
核心洞察:纪律 > 智力。有澄清流程约束的模型,比天才自由发挥更适合工程环境。
「渐进腐烂」比崩溃更危险:autoperf 发现表面还在跑、第 4-5 轮后上下文已退化、原地空转。解决方案:单 Agent 独立 A/B 验收,避免好 Skill 被差 Skill 批次淹没。
十四、产品设计启发汇总(平台视角)
所有实践案例收敛到的平台产品功能优先级:
| 优先级 | 功能 | 来源洞察 |
|---|---|---|
| ①(最高) | Spec 模板库 + 「问题清晰化引导」 | WHAT > HOW,入口是定义问题 |
| ② | 任务进度持久化/断点续传 | File As Progress |
| ③ | 独立 AI 审查(跨会话评估) | 自我说服效应 |
| ④ | 量化验收自动检查 | AutoResearch 量化门禁 |
| ⑤ | 快速回滚机制 | 止损速度够快即控制风险 |
| ⑥ | CLI-First 工具生态 | MCP 减少 98.7% token,CLI 更可靠 |
平台护城河 = Spec 规约前置 × Agent Harness 基础设施 × Skills 知识民主化
十五、一句话结论
这 3.5 周、30+ 篇厂内实践案例,用不同场景、不同角色、不同技术栈,反复证明了同一件事:
AI 是引擎,规约/纪律/工程化框架才是底盘——没有底盘的引擎只会原地空转。
与《Harness Engineering》(Anthropic/OpenAI/Thoughtworks 视角)完全互证,只是换成了百度工程师的亲历语言。
来源:「厂内 AI 实践学习档案」hongxinbo 整理 | 2026-05-11