What is an AI Agent?
先说清楚定义。我理解的 Agent 不是一个更聪明的 chatbot,而是 能自主规划、使用工具、完成复杂任务的 AI 系统。
核心区别:
| Chatbot | Agent | |
|---|---|---|
| 交互模式 | 一问一答 | 接受目标,自主执行 |
| 工具使用 | 无 | 可调用 API、搜索、代码执行等 |
| 记忆 | 仅当前对话 | 短期 + 长期记忆 |
| 规划能力 | 无 | 任务分解、步骤编排 |
Agent Architecture: The Big Picture
经过在贴吧 Agent 社区项目中的实践,我总结出一个实用的 Agent 架构:
┌─────────────────────────────────┐
│ User Interface │
├─────────────────────────────────┤
│ Orchestrator Layer │
│ ┌───────────┐ ┌─────────────┐ │
│ │ Planner │ │ Memory │ │
│ │ (ReAct / │ │ (Short + │ │
│ │ Plan & │ │ Long Term) │ │
│ │ Execute) │ │ │ │
│ └───────────┘ └─────────────┘ │
├─────────────────────────────────┤
│ Tool Registry │
│ [Search] [Code] [API] [DB] │
├─────────────────────────────────┤
│ Foundation Model │
│ (LLM as reasoning core) │
└─────────────────────────────────┘
Planner
Planner 是 Agent 的大脑。我们在实践中对比了两种 pattern:
ReAct Pattern:Thought → Action → Observation 循环。优点是实现简单、对简单任务足够好。缺点是对复杂任务容易"走偏"——每一步只看上一步的结果,缺乏全局规划。
Plan-and-Execute Pattern:先制定完整计划,然后逐步执行,执行过程中可以 re-plan。更适合复杂任务,但延迟更高。
我们最终采用了 混合策略:简单任务用 ReAct,复杂任务自动切换到 Plan-and-Execute。判断标准是用户意图的复杂度——通过一个轻量级的 intent classifier 来路由。
Memory
Memory 是让 Agent “有个性"的关键。我们设计了三层记忆:
- Working Memory — 当前对话上下文,存在 context window 里
- Episodic Memory — 历史对话摘要,用 embedding 检索
- Persona Memory — Agent 的人设和知识库,相对静态
在贴吧的 Agent 社区中,每个 Agent 的 Persona Memory 由创作者定义(Skills 封装),Episodic Memory 随用户互动不断积累。这让每个 Agent 都有独特的"成长轨迹”。
Tool Registry
工具设计有一个关键原则:工具的描述比实现更重要。
因为 LLM 是通过 tool description 来决定何时使用什么工具的。一个描述模糊的工具,模型要么不会调用,要么在错误的时机调用。
我们的 tool description template:
{
"name": "search_tieba",
"description": "在贴吧中搜索帖子。当用户询问贴吧中的讨论、热门话题、或特定吧的内容时使用。不要用于搜索贴吧以外的内容。",
"parameters": {
"query": "搜索关键词,应该是简洁的关键词组合而非完整句子",
"subreddit": "可选,指定搜索的贴吧名称"
}
}
注意 description 中不仅说了"什么时候用",还说了"什么时候不用"——这对减少误调用非常关键。
Lessons Learned
1. Agent 的价值不在于"智能",在于"可靠"
用户不在乎 Agent 能不能写诗,在乎的是它能不能 稳定地完成任务。我们花了大量时间在 error handling 和 fallback 机制上,远比优化 prompt 带来的用户体验提升更大。
2. 评测体系决定迭代速度
我们建立了四维评测体系:
- 任务完成率 — Agent 是否完成了用户的目标
- 工具调用准确率 — 是否调用了正确的工具
- 响应质量 — 回复是否有帮助、是否符合人设
- 安全性 — 是否产生了不当内容
自动化评测 + 人工抽检的组合,让我们能做到每周迭代。
3. Multi-Agent 系统的协调比单 Agent 优化更难
当你有多个 Agent 在同一个场景中交互时,最大的挑战不是单个 Agent 的能力,而是 Agent 之间的协调。谁先说话?观点冲突时怎么处理?如何避免"AI 互相吹捧"的尴尬场面?
这些问题没有标准答案,但有一个原则:设计明确的角色边界和交互协议。
What’s Next for Agents?
我相信 2026 年会是 Agent 真正落地的一年。关键不是模型能力的提升(虽然这也很重要),而是 Agent infra 的成熟——更好的 orchestration 框架、更标准化的 tool protocol、更完善的 evaluation 体系。
作为 PM,我们需要从"怎么用好一个模型"转向"怎么设计好一个 Agent 系统"。这是一个全新的产品设计范式。