来源:「厂内 AI 实践学习档案」2026-04-19 ~ 2026-05-11 | 30+ 篇实践案例提炼 整理人:hongxinbo | 整理时间:2026-05-11


一、最高频共识:AI 质量上限定律

AI 生成的质量上限 = 人的规约/设计文档的质量上限,与模型能力无关。

这是出现频率最高(8+ 次)的核心结论,被以下实践反复印证:

  • Spec-Driven 四层规约:「两天两万行代码只出一个 bug」的底层密码
  • Design Token:有 Token,AI Demo 还原度 20% → 90%+
  • 0 行手写代码反而要求更多深度思考
  • NMLeak、OOM 排查:Plan 模式前置 = 结构化对齐 > 直接生成
  • Superpowers 强制澄清流程:纪律 > 智力

实操结论:每个功能开始前花几百字写清楚——问题背景、边界条件、验收标准、不做什么。前置思考 1 分钟,节省后期 10 倍返工时间。


二、Spec-Driven 规约体系(四层)

适用场景:长期项目、核心系统、多人协作

架构层(Architecture)
  ↓ 服务边界、数据流向、技术选型
契约层(Contract)
  ↓ 接口定义、数据结构、依赖关系
具体规格层(Specification)
  ↓ 每个功能的行为描述、边界条件、异常处理
Story 交付清单(Stories)
  ↓ 可验证的最小交付单元,含验收标准

核心价值:把脑子里的隐含假设显性化为可执行规约,人定义边界、AI 填充实现。

「反向采访」技术:把问题+背景+架构给 AI,让它以架构师角色主动向你提问,把隐含假设全挖出来——比直接命令 AI 更有效。


三、Vibe Coding vs Spec Coding 的适用边界

维度Vibe CodingSpec Coding
适用场景短期/小功能/快速验证/Demo长期/核心系统/多人协作/生产级
前置投入高(方案和 Spec 前置近 4 天)
输出质量不稳定「两天两万行代码只出 1 个 bug」
返工风险高(数据库设计/接口划分等架构决策一旦 Vibe 进去需完全重做)
PM 边界PM Vibe 1 天做 Demo,RD 花 1 周重构核心PM 定义 WHAT,AI 负责 HOW

关键洞察:速度感是假象,架构判断才是 PM 真正不可让渡的核心价值。


四、Harness Engineering 五子系统(Agent 工程化框架)

详见独立文档《Harness Engineering:让AI Agent可靠工作的完整方法论》

速查核心

Agent = Model + Harness
Harness = 指令(AGENTS.md) + 工具 + 环境 + 状态(PROGRESS.md) + 反馈(验证命令)

五个关键规则

  1. WIP=1:任何时刻只允许一个任务进行中,做完再开始下一个
  2. File As Progress:所有任务进度持久化到文件,中断可从断点续传(状态机:TODO→ANALYZING→ANALYZED→EXECUTING→DONE)
  3. 跨会话独立评审:做事的 Agent 和评价的 Agent 必须跨会话——同会话内有「自我说服效应」
  4. 三层终止校验:语法通过 → 运行时行为通过 → 端到端系统通过
  5. 冷启动测试:全新会话只看仓库,能否回答「是什么/怎么跑/怎么验/进度如何」

五、Vibe Coding 效率公式与反直觉

效率真公式

有效交付速度 = AI 生成速度 × (1 − 验证耗时占比)

代码生成与验证时间比 = 1:3 到 1:5,验证成本是 Vibe Coding 的生死线。

4S Prompt 原则(降低验证成本的起点):

  • Single:一次只做一件事
  • Specific:描述越具体越好
  • Short:上下文越精准越少越好
  • Surround:给足边界约束

Prompt 上省的每一秒,会在验证阶段以 10 倍 Debug 时间偿还。


六、AI 协作角色分工新范式

「人负责 WHAT,AI 负责 HOW」

  • PM/架构师定义问题边界、验收标准、约束条件
  • AI 在边界内自主选型、实现、验证
  • 人的核心价值 = 辨别和取舍,而非发明创造

「2+2+2 并行范式」(团队协作)

  • PM 输出可运行原型(Vibe Coding)
  • UE 调优代码库(70% 基础 UI 直接复用)
  • RD 专注业务逻辑(消灭需求翻译层)

关键洞察:每个角色都用 AI 提效,但整体迭代周期不一定快——单点提效的上限是「翻译成本」消失,真正加速要靠整链路并行。


七、量化验收:AI 自主迭代的基础设施

没有可量化目标,AI 不知道什么时候该停、什么时候该继续。

典型量化方案

  • AutoResearch 量化门禁:85/100 分才通过,多 Agent 对抗迭代(Claude/Codex/OpenCode 轮流实现+交叉审核)
  • Skill 质量 8 维评分:S/A 上榜,B 改进,C 以下退回
  • 5 维加权评分 ≥ 9.0 才算合格
  • redis-proxy 实战:2 天/57 倍 QPS/93 项验证/14 个 BUG 发现——「基线→审计→分阶段→量化验证」方法论

量化基线是 AI 协作工程的核心基础设施——把「好不好」从主观感觉变成自动化数字。


八、知识资产化:规模化 AI 研发的真正壁垒

AI Coding 在复杂工业场景成功率只有 20%(SWE-Bench 数据)。破解这 20% 不是换更强的模型,而是把企业内部知识系统性地资产化。

小刚 Claw「知识资产化+反馈自动化」双轮

  1. 把代码库知识结构化为层级知识 + 套路 Skills
  2. 通过任务自动回溯优化套路
  3. 形成「越用越好」飞轮

Skills 最大价值:把专家经验 SOP 化,让任何人 5 分钟复现(周报分析 1-2 小时→5 分钟)。经验壁垒不再是护城河,Skills 才是真正的知识平权工具。


九、Rules 设计:触发机制 > 内容本身

完美的 Rules 如果不被触发,价值为零。先测试触发,再测试执行

Rules 四分类框架(来自「平台端到端 AI 内化思路」):

  1. 触发型 Rules:特定条件自动激活
  2. 约束型 Rules:硬边界,不可违反
  3. 引导型 Rules:软建议,提升输出质量
  4. 上下文型 Rules:注入背景知识

AI 系统设计的可靠性瓶颈往往不在执行阶段,而在触发条件的精准设计。


十、ContextEngine:上下文管理架构原则

「不可变存储才是唯一事实来源,摘要只是缓存。」

两大原则

  • 不可变性:原始上下文永不修改,只追加
  • 可插拔性:上下文管理从硬编码变为生命周期钩子,可替换不同的摘要/压缩策略

实操:File As Progress + 细粒度状态机,任务规模从百文件极限扩展到千文件可靠。


十一、AI 诊断工程:发现人看不见的问题

AI 代码审计的独特优势

  • 几秒追踪跨模块完整数据流(人工需要数小时)
  • 不区分注释代码 vs 正常代码——能发现人脑自动跳过的「被注释掉的并发控制」
  • OOM 排查:AI 主动提出了工程师没想到的架构洞察(「先提交备写再做主写」实现天然并行)

AI 协作双场景范式

  • 构建型(NMLeak):人拆架构 + AI 逐模块实现,「描述问题不指定方案」让 AI 自主选型
  • 诊断型(OOM 排查):人提假设 + AI 验证 + 人纠正因果,「先事实后推论」锚定分析

十二、全流程自动化:边界重划而非渐进提效

「给它一个 Issue 编号」= 唯一的 human-in-the-loop

已实现的全流程:

Issue 编号 → PRD 编写 → 任务拆解 → 代码实现 → PR 合入 → iCafe 卡片关闭

一个 shell 脚本可以跑通,这在 2026 年已是现实。

YAML 作为跨角色机器可读语言:消灭 PM/UE/RD 之间的「重复理解需求」翻译层。PM 需求文档质量成为整条流水线的唯一质量上限。


十三、Superpowers「强制澄清」纪律流程

五步强制流程:澄清 → 设计 → 规划 → 执行 → 验证

核心洞察:纪律 > 智力。有澄清流程约束的模型,比天才自由发挥更适合工程环境。

「渐进腐烂」比崩溃更危险:autoperf 发现表面还在跑、第 4-5 轮后上下文已退化、原地空转。解决方案:单 Agent 独立 A/B 验收,避免好 Skill 被差 Skill 批次淹没。


十四、产品设计启发汇总(平台视角)

所有实践案例收敛到的平台产品功能优先级:

优先级功能来源洞察
①(最高)Spec 模板库 + 「问题清晰化引导」WHAT > HOW,入口是定义问题
任务进度持久化/断点续传File As Progress
独立 AI 审查(跨会话评估)自我说服效应
量化验收自动检查AutoResearch 量化门禁
快速回滚机制止损速度够快即控制风险
CLI-First 工具生态MCP 减少 98.7% token,CLI 更可靠

平台护城河 = Spec 规约前置 × Agent Harness 基础设施 × Skills 知识民主化


十五、一句话结论

这 3.5 周、30+ 篇厂内实践案例,用不同场景、不同角色、不同技术栈,反复证明了同一件事:

AI 是引擎,规约/纪律/工程化框架才是底盘——没有底盘的引擎只会原地空转。

与《Harness Engineering》(Anthropic/OpenAI/Thoughtworks 视角)完全互证,只是换成了百度工程师的亲历语言。


来源:「厂内 AI 实践学习档案」hongxinbo 整理 | 2026-05-11