从零构建 AI Agent：架构设计与实践总结

What is an AI Agent?

先说清楚定义。我理解的 Agent 不是一个更聪明的 chatbot，而是 能自主规划、使用工具、完成复杂任务的 AI 系统。

核心区别：

	Chatbot	Agent
交互模式	一问一答	接受目标，自主执行
工具使用	无	可调用 API、搜索、代码执行等
记忆	仅当前对话	短期 + 长期记忆
规划能力	无	任务分解、步骤编排

Agent Architecture: The Big Picture

经过在贴吧 Agent 社区项目中的实践，我总结出一个实用的 Agent 架构：

┌─────────────────────────────────┐
│         User Interface          │
├─────────────────────────────────┤
│        Orchestrator Layer       │
│  ┌───────────┐ ┌─────────────┐  │
│  │  Planner  │ │   Memory    │  │
│  │ (ReAct /  │ │ (Short +    │  │
│  │  Plan &   │ │  Long Term) │  │
│  │  Execute) │ │             │  │
│  └───────────┘ └─────────────┘  │
├─────────────────────────────────┤
│          Tool Registry          │
│  [Search] [Code] [API] [DB]    │
├─────────────────────────────────┤
│        Foundation Model         │
│     (LLM as reasoning core)    │
└─────────────────────────────────┘

Planner

Planner 是 Agent 的大脑。我们在实践中对比了两种 pattern：

ReAct Pattern：Thought → Action → Observation 循环。优点是实现简单、对简单任务足够好。缺点是对复杂任务容易"走偏"——每一步只看上一步的结果，缺乏全局规划。

Plan-and-Execute Pattern：先制定完整计划，然后逐步执行，执行过程中可以 re-plan。更适合复杂任务，但延迟更高。

我们最终采用了 混合策略：简单任务用 ReAct，复杂任务自动切换到 Plan-and-Execute。判断标准是用户意图的复杂度——通过一个轻量级的 intent classifier 来路由。

Memory

Memory 是让 Agent “有个性"的关键。我们设计了三层记忆：

Working Memory — 当前对话上下文，存在 context window 里
Episodic Memory — 历史对话摘要，用 embedding 检索
Persona Memory — Agent 的人设和知识库，相对静态

在贴吧的 Agent 社区中，每个 Agent 的 Persona Memory 由创作者定义（Skills 封装），Episodic Memory 随用户互动不断积累。这让每个 Agent 都有独特的"成长轨迹”。

Tool Registry

工具设计有一个关键原则：工具的描述比实现更重要。

因为 LLM 是通过 tool description 来决定何时使用什么工具的。一个描述模糊的工具，模型要么不会调用，要么在错误的时机调用。

我们的 tool description template：

{
  "name": "search_tieba",
  "description": "在贴吧中搜索帖子。当用户询问贴吧中的讨论、热门话题、或特定吧的内容时使用。不要用于搜索贴吧以外的内容。",
  "parameters": {
    "query": "搜索关键词，应该是简洁的关键词组合而非完整句子",
    "subreddit": "可选，指定搜索的贴吧名称"
  }
}

注意 description 中不仅说了"什么时候用"，还说了"什么时候不用"——这对减少误调用非常关键。

Lessons Learned

1. Agent 的价值不在于"智能"，在于"可靠"

用户不在乎 Agent 能不能写诗，在乎的是它能不能 稳定地完成任务。我们花了大量时间在 error handling 和 fallback 机制上，远比优化 prompt 带来的用户体验提升更大。

2. 评测体系决定迭代速度

我们建立了四维评测体系：

任务完成率 — Agent 是否完成了用户的目标
工具调用准确率 — 是否调用了正确的工具
响应质量 — 回复是否有帮助、是否符合人设
安全性 — 是否产生了不当内容

自动化评测 + 人工抽检的组合，让我们能做到每周迭代。

3. Multi-Agent 系统的协调比单 Agent 优化更难

当你有多个 Agent 在同一个场景中交互时，最大的挑战不是单个 Agent 的能力，而是 Agent 之间的协调。谁先说话？观点冲突时怎么处理？如何避免"AI 互相吹捧"的尴尬场面？

这些问题没有标准答案，但有一个原则：设计明确的角色边界和交互协议。

What’s Next for Agents?

我相信 2026 年会是 Agent 真正落地的一年。关键不是模型能力的提升（虽然这也很重要），而是 Agent infra 的成熟——更好的 orchestration 框架、更标准化的 tool protocol、更完善的 evaluation 体系。

作为 PM，我们需要从"怎么用好一个模型"转向"怎么设计好一个 Agent 系统"。这是一个全新的产品设计范式。

What is an AI Agent?#

Agent Architecture: The Big Picture#

Planner#

Memory#

Tool Registry#

Lessons Learned#

1. Agent 的价值不在于"智能"，在于"可靠"#

2. 评测体系决定迭代速度#

3. Multi-Agent 系统的协调比单 Agent 优化更难#

What’s Next for Agents?#