What is an AI Agent?

先说清楚定义。我理解的 Agent 不是一个更聪明的 chatbot,而是 能自主规划、使用工具、完成复杂任务的 AI 系统

核心区别:

ChatbotAgent
交互模式一问一答接受目标,自主执行
工具使用可调用 API、搜索、代码执行等
记忆仅当前对话短期 + 长期记忆
规划能力任务分解、步骤编排

Agent Architecture: The Big Picture

经过在贴吧 Agent 社区项目中的实践,我总结出一个实用的 Agent 架构:

┌─────────────────────────────────┐
│         User Interface          │
├─────────────────────────────────┤
│        Orchestrator Layer       │
│  ┌───────────┐ ┌─────────────┐  │
│  │  Planner  │ │   Memory    │  │
│  │ (ReAct /  │ │ (Short +    │  │
│  │  Plan &   │ │  Long Term) │  │
│  │  Execute) │ │             │  │
│  └───────────┘ └─────────────┘  │
├─────────────────────────────────┤
│          Tool Registry          │
│  [Search] [Code] [API] [DB]    │
├─────────────────────────────────┤
│        Foundation Model         │
│     (LLM as reasoning core)    │
└─────────────────────────────────┘

Planner

Planner 是 Agent 的大脑。我们在实践中对比了两种 pattern:

ReAct Pattern:Thought → Action → Observation 循环。优点是实现简单、对简单任务足够好。缺点是对复杂任务容易"走偏"——每一步只看上一步的结果,缺乏全局规划。

Plan-and-Execute Pattern:先制定完整计划,然后逐步执行,执行过程中可以 re-plan。更适合复杂任务,但延迟更高。

我们最终采用了 混合策略:简单任务用 ReAct,复杂任务自动切换到 Plan-and-Execute。判断标准是用户意图的复杂度——通过一个轻量级的 intent classifier 来路由。

Memory

Memory 是让 Agent “有个性"的关键。我们设计了三层记忆:

  1. Working Memory — 当前对话上下文,存在 context window 里
  2. Episodic Memory — 历史对话摘要,用 embedding 检索
  3. Persona Memory — Agent 的人设和知识库,相对静态

在贴吧的 Agent 社区中,每个 Agent 的 Persona Memory 由创作者定义(Skills 封装),Episodic Memory 随用户互动不断积累。这让每个 Agent 都有独特的"成长轨迹”。

Tool Registry

工具设计有一个关键原则:工具的描述比实现更重要。

因为 LLM 是通过 tool description 来决定何时使用什么工具的。一个描述模糊的工具,模型要么不会调用,要么在错误的时机调用。

我们的 tool description template:

{
  "name": "search_tieba",
  "description": "在贴吧中搜索帖子。当用户询问贴吧中的讨论、热门话题、或特定吧的内容时使用。不要用于搜索贴吧以外的内容。",
  "parameters": {
    "query": "搜索关键词,应该是简洁的关键词组合而非完整句子",
    "subreddit": "可选,指定搜索的贴吧名称"
  }
}

注意 description 中不仅说了"什么时候用",还说了"什么时候不用"——这对减少误调用非常关键。

Lessons Learned

1. Agent 的价值不在于"智能",在于"可靠"

用户不在乎 Agent 能不能写诗,在乎的是它能不能 稳定地完成任务。我们花了大量时间在 error handling 和 fallback 机制上,远比优化 prompt 带来的用户体验提升更大。

2. 评测体系决定迭代速度

我们建立了四维评测体系:

  • 任务完成率 — Agent 是否完成了用户的目标
  • 工具调用准确率 — 是否调用了正确的工具
  • 响应质量 — 回复是否有帮助、是否符合人设
  • 安全性 — 是否产生了不当内容

自动化评测 + 人工抽检的组合,让我们能做到每周迭代。

3. Multi-Agent 系统的协调比单 Agent 优化更难

当你有多个 Agent 在同一个场景中交互时,最大的挑战不是单个 Agent 的能力,而是 Agent 之间的协调。谁先说话?观点冲突时怎么处理?如何避免"AI 互相吹捧"的尴尬场面?

这些问题没有标准答案,但有一个原则:设计明确的角色边界和交互协议。

What’s Next for Agents?

我相信 2026 年会是 Agent 真正落地的一年。关键不是模型能力的提升(虽然这也很重要),而是 Agent infra 的成熟——更好的 orchestration 框架、更标准化的 tool protocol、更完善的 evaluation 体系。

作为 PM,我们需要从"怎么用好一个模型"转向"怎么设计好一个 Agent 系统"。这是一个全新的产品设计范式。