厂内 AI 实践精华：30+ 案例的 15 个核心知识点

来源：「厂内 AI 实践学习档案」2026-04-19 ～ 2026-05-11 | 30+ 篇实践案例提炼整理人：hongxinbo | 整理时间：2026-05-11

一、最高频共识：AI 质量上限定律

AI 生成的质量上限 = 人的规约/设计文档的质量上限，与模型能力无关。

这是出现频率最高（8+ 次）的核心结论，被以下实践反复印证：

Spec-Driven 四层规约：「两天两万行代码只出一个 bug」的底层密码
Design Token：有 Token，AI Demo 还原度 20% → 90%+
0 行手写代码反而要求更多深度思考
NMLeak、OOM 排查：Plan 模式前置 = 结构化对齐 > 直接生成
Superpowers 强制澄清流程：纪律 > 智力

实操结论：每个功能开始前花几百字写清楚——问题背景、边界条件、验收标准、不做什么。前置思考 1 分钟，节省后期 10 倍返工时间。

二、Spec-Driven 规约体系（四层）

适用场景：长期项目、核心系统、多人协作

架构层（Architecture）
  ↓ 服务边界、数据流向、技术选型
契约层（Contract）
  ↓ 接口定义、数据结构、依赖关系
具体规格层（Specification）
  ↓ 每个功能的行为描述、边界条件、异常处理
Story 交付清单（Stories）
  ↓ 可验证的最小交付单元，含验收标准

核心价值：把脑子里的隐含假设显性化为可执行规约，人定义边界、AI 填充实现。

「反向采访」技术：把问题+背景+架构给 AI，让它以架构师角色主动向你提问，把隐含假设全挖出来——比直接命令 AI 更有效。

三、Vibe Coding vs Spec Coding 的适用边界

维度	Vibe Coding	Spec Coding
适用场景	短期/小功能/快速验证/Demo	长期/核心系统/多人协作/生产级
前置投入	低	高（方案和 Spec 前置近 4 天）
输出质量	不稳定	「两天两万行代码只出 1 个 bug」
返工风险	高（数据库设计/接口划分等架构决策一旦 Vibe 进去需完全重做）	低
PM 边界	PM Vibe 1 天做 Demo，RD 花 1 周重构核心	PM 定义 WHAT，AI 负责 HOW

关键洞察：速度感是假象，架构判断才是 PM 真正不可让渡的核心价值。

四、Harness Engineering 五子系统（Agent 工程化框架）

详见独立文档《Harness Engineering：让AI Agent可靠工作的完整方法论》

速查核心：

Agent = Model + Harness
Harness = 指令(AGENTS.md) + 工具 + 环境 + 状态(PROGRESS.md) + 反馈(验证命令)

五个关键规则：

WIP=1：任何时刻只允许一个任务进行中，做完再开始下一个
File As Progress：所有任务进度持久化到文件，中断可从断点续传（状态机：TODO→ANALYZING→ANALYZED→EXECUTING→DONE）
跨会话独立评审：做事的 Agent 和评价的 Agent 必须跨会话——同会话内有「自我说服效应」
三层终止校验：语法通过 → 运行时行为通过 → 端到端系统通过
冷启动测试：全新会话只看仓库，能否回答「是什么/怎么跑/怎么验/进度如何」

五、Vibe Coding 效率公式与反直觉

效率真公式：

有效交付速度 = AI 生成速度 × (1 − 验证耗时占比)

代码生成与验证时间比 = 1:3 到 1:5，验证成本是 Vibe Coding 的生死线。

4S Prompt 原则（降低验证成本的起点）：

Single：一次只做一件事
Specific：描述越具体越好
Short：上下文越精准越少越好
Surround：给足边界约束

Prompt 上省的每一秒，会在验证阶段以 10 倍 Debug 时间偿还。

六、AI 协作角色分工新范式

「人负责 WHAT，AI 负责 HOW」

PM/架构师定义问题边界、验收标准、约束条件
AI 在边界内自主选型、实现、验证
人的核心价值 = 辨别和取舍，而非发明创造

「2+2+2 并行范式」（团队协作）

PM 输出可运行原型（Vibe Coding）
UE 调优代码库（70% 基础 UI 直接复用）
RD 专注业务逻辑（消灭需求翻译层）

关键洞察：每个角色都用 AI 提效，但整体迭代周期不一定快——单点提效的上限是「翻译成本」消失，真正加速要靠整链路并行。

七、量化验收：AI 自主迭代的基础设施

没有可量化目标，AI 不知道什么时候该停、什么时候该继续。

典型量化方案：

AutoResearch 量化门禁：85/100 分才通过，多 Agent 对抗迭代（Claude/Codex/OpenCode 轮流实现+交叉审核）
Skill 质量 8 维评分：S/A 上榜，B 改进，C 以下退回
5 维加权评分 ≥ 9.0 才算合格
redis-proxy 实战：2 天/57 倍 QPS/93 项验证/14 个 BUG 发现——「基线→审计→分阶段→量化验证」方法论

量化基线是 AI 协作工程的核心基础设施——把「好不好」从主观感觉变成自动化数字。

八、知识资产化：规模化 AI 研发的真正壁垒

AI Coding 在复杂工业场景成功率只有 20%（SWE-Bench 数据）。破解这 20% 不是换更强的模型，而是把企业内部知识系统性地资产化。

小刚 Claw「知识资产化+反馈自动化」双轮：

把代码库知识结构化为层级知识 + 套路 Skills
通过任务自动回溯优化套路
形成「越用越好」飞轮

Skills 最大价值：把专家经验 SOP 化，让任何人 5 分钟复现（周报分析 1-2 小时→5 分钟）。经验壁垒不再是护城河，Skills 才是真正的知识平权工具。

九、Rules 设计：触发机制 > 内容本身

完美的 Rules 如果不被触发，价值为零。先测试触发，再测试执行。

Rules 四分类框架（来自「平台端到端 AI 内化思路」）：

触发型 Rules：特定条件自动激活
约束型 Rules：硬边界，不可违反
引导型 Rules：软建议，提升输出质量
上下文型 Rules：注入背景知识

AI 系统设计的可靠性瓶颈往往不在执行阶段，而在触发条件的精准设计。

十、ContextEngine：上下文管理架构原则

「不可变存储才是唯一事实来源，摘要只是缓存。」

两大原则：

不可变性：原始上下文永不修改，只追加
可插拔性：上下文管理从硬编码变为生命周期钩子，可替换不同的摘要/压缩策略

实操：File As Progress + 细粒度状态机，任务规模从百文件极限扩展到千文件可靠。

十一、AI 诊断工程：发现人看不见的问题

AI 代码审计的独特优势：

几秒追踪跨模块完整数据流（人工需要数小时）
不区分注释代码 vs 正常代码——能发现人脑自动跳过的「被注释掉的并发控制」
OOM 排查：AI 主动提出了工程师没想到的架构洞察（「先提交备写再做主写」实现天然并行）

AI 协作双场景范式：

构建型（NMLeak）：人拆架构 + AI 逐模块实现，「描述问题不指定方案」让 AI 自主选型
诊断型（OOM 排查）：人提假设 + AI 验证 + 人纠正因果，「先事实后推论」锚定分析

十二、全流程自动化：边界重划而非渐进提效

「给它一个 Issue 编号」= 唯一的 human-in-the-loop

已实现的全流程：

Issue 编号 → PRD 编写 → 任务拆解 → 代码实现 → PR 合入 → iCafe 卡片关闭

一个 shell 脚本可以跑通，这在 2026 年已是现实。

YAML 作为跨角色机器可读语言：消灭 PM/UE/RD 之间的「重复理解需求」翻译层。PM 需求文档质量成为整条流水线的唯一质量上限。

十三、Superpowers「强制澄清」纪律流程

五步强制流程：澄清 → 设计 → 规划 → 执行 → 验证

核心洞察：纪律 > 智力。有澄清流程约束的模型，比天才自由发挥更适合工程环境。

「渐进腐烂」比崩溃更危险：autoperf 发现表面还在跑、第 4-5 轮后上下文已退化、原地空转。解决方案：单 Agent 独立 A/B 验收，避免好 Skill 被差 Skill 批次淹没。

十四、产品设计启发汇总（平台视角）

所有实践案例收敛到的平台产品功能优先级：

优先级	功能	来源洞察
①（最高）	Spec 模板库 + 「问题清晰化引导」	WHAT > HOW，入口是定义问题
②	任务进度持久化/断点续传	File As Progress
③	独立 AI 审查（跨会话评估）	自我说服效应
④	量化验收自动检查	AutoResearch 量化门禁
⑤	快速回滚机制	止损速度够快即控制风险
⑥	CLI-First 工具生态	MCP 减少 98.7% token，CLI 更可靠

平台护城河 = Spec 规约前置 × Agent Harness 基础设施 × Skills 知识民主化

十五、一句话结论

这 3.5 周、30+ 篇厂内实践案例，用不同场景、不同角色、不同技术栈，反复证明了同一件事：
AI 是引擎，规约/纪律/工程化框架才是底盘——没有底盘的引擎只会原地空转。
与《Harness Engineering》（Anthropic/OpenAI/Thoughtworks 视角）完全互证，只是换成了百度工程师的亲历语言。

来源：「厂内 AI 实践学习档案」hongxinbo 整理 | 2026-05-11

一、最高频共识：AI 质量上限定律#

二、Spec-Driven 规约体系（四层）#

三、Vibe Coding vs Spec Coding 的适用边界#

四、Harness Engineering 五子系统（Agent 工程化框架）#

五、Vibe Coding 效率公式与反直觉#

六、AI 协作角色分工新范式#

「人负责 WHAT，AI 负责 HOW」#

「2+2+2 并行范式」（团队协作）#

七、量化验收：AI 自主迭代的基础设施#

八、知识资产化：规模化 AI 研发的真正壁垒#

九、Rules 设计：触发机制 > 内容本身#

十、ContextEngine：上下文管理架构原则#

十一、AI 诊断工程：发现人看不见的问题#

十二、全流程自动化：边界重划而非渐进提效#

十三、Superpowers「强制澄清」纪律流程#

十四、产品设计启发汇总（平台视角）#

十五、一句话结论#