AI Agent 架构演进全景图:10篇论文核心洞察与 2025-2026 前沿进展
2026年5月4日...大约 12 分钟
AI Agent 架构演进全景图:10篇论文核心洞察与 2025-2026 前沿进展
从 Chain-of-Thought 到 Self-Discovering,10篇论文串起的 AI Agent 进化之路
本文是对 AI Agent 架构演进的系统性回顾与展望
一、写在前面
过去一段时间,我系统性地学习了 10 篇 AI Agent 领域的核心论文,从 2021 年的 Chain-of-Thought 到 2024 年的 Self-Discovering。这些论文串起来,就是一部 AI Agent 能力进化的编年史。
本文分为两部分:
- 上篇:10 篇论文的核心洞察与架构演进
- 下篇:2025-2026 年的最新进展与未来展望
上篇:10篇论文核心洞察
论文学习清单
| # | 论文 | 时间 | 核心贡献 | 状态 |
|---|---|---|---|---|
| 1 | Chain-of-Thought | 2022 | 逐步推理提示 | ✅ |
| 2 | ReAct | 2023 | 推理+行动交替 | ✅ |
| 3 | Toolformer | 2023 | LLM 自学工具 | ✅ |
| 4 | AgentVerse | 2022 | 多 Agent 动态协作 | ✅ |
| 5 | MetaGPT | 2023 | 结构化 SOP 协作 | ✅ |
| 6 | Voyager | 2023 | 具身智能+外部技能库 | ✅ |
| 7 | MemGPT | 2023 | 层级记忆管理 | ✅ |
| 8 | Computer Use | 2024 | 多模态 GUI 控制 | ✅ |
| 9 | Agentic RAG | 2024 | 检索增强+Agent | ✅ |
| 10 | Self-Discovering | 2024 | 自我组合推理结构 | ✅ |
二、整体演进时间线
2021-2022 2023 2024
│ │ │
▼ ▼ ▼
┌─────┐ ┌─────┐ ┌─────┐ ┌─────┐
│ CoT │ → │ReAct│ → │Voyager│ → │Self- │
│ │ │ │ │ │ │Discover│
└─────┘ └─────┘ └─────┘ └─────┘
│ │ │ │
│ ▼ ▼ │
│ ┌─────┐ ┌─────┐ │
│ │Tool-│ → │Meta-│ │
│ │former│ │GPT │ │
│ └─────┘ └─────┘ │
│ │ │ │
│ ▼ ▼ ▼
│ ┌─────┐ ┌─────┐ ┌─────┐
│ │Agent│ │Computer│ │Agentic│
│ │Verse│ → │Use │ → │RAG │
│ └─────┘ └─────┘ └─────┘
│ │
└──────────────────────────────────────────┘
│
▼
┌─────┐
│MemGPT│
└─────┘三、分维度演进详解
维度 1:推理能力演进
CoT(2022):单步线性推理
↓
ReAct(2023):推理与行动交织
↓
Self-Discovering(2024):动态选择最优推理路径| 方法 | 做法 | 局限 |
|---|---|---|
| CoT | 人工设计推理步骤 | 只能线性推理,不适合复杂任务 |
| ReAct | 边推理边行动 | 模式固定,泛化能力差 |
| Self-Discovering | LLM 自我组合推理模块 | 可网状/并行/组合,泛化能力强 |
核心演进逻辑:推理结构从"人工指定"到"自我发现"
维度 2:工具使用演进
无工具(2021):纯推理
↓
Toolformer(2023):LLM 自学工具,内化到参数
↓
Function Calling(2024):显式工具调用
↓
Agentic Tool Use(2025+):智能选择最优工具| 方法 | 做法 | 特点 |
|---|---|---|
| Toolformer | 自监督学习,把工具内化到模型 | 训练一次,永久掌握 |
| Function Calling | 显式 API 调用 | 灵活但需人工定义 |
| Agentic Tool Use | Agent 自己决定用什么工具 | 动态自适应 |
维度 3:多 Agent 协作演进
单 Agent(2021)
↓
AgentVerse(2022):动态协作团队
↓
MetaGPT(2023):结构化 SOP 约束
↓
Orchestrator(2024):总指挥+分工 Agent| 方法 | 核心创新 | 适用场景 |
|---|---|---|
| AgentVerse | 动态组队 | 开放任务 |
| MetaGPT | SOP 约束通信 | 封闭任务,有标准流程 |
| Orchestrator | 总指挥分解+整合 | 复杂任务,多应用协作 |
维度 4:记忆管理演进
无记忆(2021):每次独立,无上下文
↓
向量数据库(2022):外部向量存储
↓
MemGPT(2023):三层记忆+中断机制
↓
主动记忆管理(2025+):Agent 自己决定记什么| 方法 | 核心机制 | 突破 |
|---|---|---|
| RAG | 向量相似度检索 | 解决知识时效性问题 |
| MemGPT | Core/Recall/Archive 三层 + 中断 | 主动记忆管理 |
| 主动记忆 | Agent 自己判断该记什么 | 减少无关信息干扰 |
维度 5:感知与执行演进
纯文本(2021-2023):API/代码操作
↓
Computer Use(2024):视觉感知 + 鼠标键盘操作
↓
多模态感知(2025+):视觉+听觉+触觉+空间感知| 方法 | 观察方式 | 操作方式 |
|---|---|---|
| 传统 Agent | 文本描述 | API 调用 |
| Computer Use | screenshot 像素 | mouse/keyboard |
| 多模态 Agent | 视觉+听觉+传感器 | 物理世界交互 |
维度 6:知识管理演进
LLM 内部知识(2021):静态,有截止日期
↓
RAG(2022):外部向量检索
↓
Agentic RAG(2024):Query改写+路由+迭代+多跳
↓
动态知识图谱(2025+):实时更新+因果推理| 方法 | 核心能力 | 局限 |
|---|---|---|
| RAG | 解决知识时效性 | 一次检索,无法迭代 |
| Agentic RAG | 迭代优化+多跳推理 | 计算成本高 |
| 动态知识图谱 | 实时更新+因果 | 技术复杂度高 |
四、十大架构模式全景图
┌─────────────────────────────────────────────────────────────┐
│ AI Agent 架构模式全景图 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 【模式1:单步推理】 │
│ CoT ──────────────────────────────────────────────────► │
│ │
│ 【模式2:循环推理+行动】 │
│ ReAct ──► Act ──► Observe ──► Think ──► │
│ ↑___________________________________________│ │
│ │
│ 【模式3:工具内化】 │
│ Toolformer ───► 自监督学习 ───► 内化到模型参数 │
│ │
│ 【模式4:多 Agent 协作】 │
│ AgentVerse ──► 动态组队 ──► 协作执行 ──► 结果汇总 │
│ │
│ 【模式5:结构化 SOP】 │
│ MetaGPT ──► Role定义 ──► SOP约束 ──► 结构化通信 │
│ │
│ 【模式6:外部技能库】 │
│ Voyager ──► Skill Library ──► 终身积累 ──► 永不遗忘 │
│ │
│ 【模式7:层级记忆】 │
│ MemGPT ──► Core ──► Recall ──► Archive ──► 中断恢复 │
│ │
│ 【模式8:视觉感知+物理操作】 │
│ Computer Use ──► Screenshot ──► LLM推理 ──► Mouse/Keyboard │
│ │
│ 【模式9:智能检索】 │
│ Agentic RAG ──► Query改写 ──► 路由 ──► 迭代 ──► 多跳 │
│ │
│ 【模式10:自我组合推理】 │
│ Self-Discovering ──► 发现 ──► 组合 ──► 执行 │
│ │
└─────────────────────────────────────────────────────────────┘五、十大里程碑
| # | 论文 | 里程碑意义 |
|---|---|---|
| 1 | CoT | 让 LLM 学会"think step by step",推理能力从0到1 |
| 3 | Toolformer | LLM 第一次学会"自学工具",工具使用内化到参数 |
| 4 | AgentVerse | 多 Agent 协作从0到1,动态组队协作 |
| 6 | Voyager | 外部 Skill Library 解决遗忘问题,实现终身学习 |
| 7 | MemGPT | 三层记忆+中断机制,实现主动记忆管理 |
| 8 | Computer Use | Agent 第一次"看见"真实世界,像人一样操作 GUI |
| 10 | Self-Discovering | 推理结构从人工设计到自我发现,泛化能力质变 |
六、知识体系自查清单
┌─────────────────────────────────────────────────────────────┐
│ AI Agent 核心知识体系 - 自查清单 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 【推理能力】 │
│ □ 能解释 CoT 的"逐步思考"原理 │
│ □ 能解释 ReAct 的"推理-行动-观察"循环 │
│ □ 能解释 Self-Discovering 的"发现-组合-执行"流程 │
│ │
│ 【工具使用】 │
│ □ 能解释 Toolformer 的自监督学习方式 │
│ □ 能区分 Toolformer vs Function Calling │
│ │
│ 【多Agent协作】 │
│ □ 能解释 AgentVerse 的动态组队机制 │
│ □ 能解释 MetaGPT 的 SOP 约束机制 │
│ │
│ 【记忆管理】 │
│ □ 能解释 MemGPT 三层记忆的设计原理 │
│ □ 能解释中断机制的作用 │
│ │
│ 【感知执行】 │
│ □ 能解释 Computer Use 的 screenshot 机制 │
│ □ 能解释 Orchestrator 的任务分解逻辑 │
│ │
│ 【知识管理】 │
│ □ 能解释 Agentic RAG 四大机制 │
│ □ 能判断什么问题需要多跳检索 │
│ │
└─────────────────────────────────────────────────────────────┘下篇:2025-2026 前沿进展
七、2025-2026 技术演进概览
2024年底 2025 2026
│ │ │
▼ ▼ ▼
Self-Discovering Agent 2.0 原生Agent
│ │
▼ ▼
┌─────────┐ ┌─────────────┐
│ 多模态 │ │ 自主规划 │
│ 深度融合 │ │ + 世界模型 │
└─────────┘ └─────────────┘
│ │
▼ ▼
┌─────────┐ ┌─────────────┐
│ Agent │ │ 长期记忆 │
│ Memory │ │ + 因果推理 │
│ 升级 │ └─────────────┘
└─────────┘八、2025 年核心技术进展
8.1 Agent Memory 范式升级
从被动检索到主动记忆
| 2024 主流方案 | 2025 升级方向 | 代表工作 |
|---|---|---|
| MemGPT 三层记忆 | 主动记忆选择 | MetaGPT-Memory, AgentEgo |
| 向量数据库 | 向量+图谱混合 | GraphRAG, HippoRAG |
| 外部存储 | Agent 自己决定记什么 | Recall, Memory Networks |
核心突破:
- Agent 不再被动等检索,而是主动判断"我需要记住什么"
- 长期记忆和短期工作记忆的边界被重新定义
- 记忆压缩技术大幅提升 recall 效率
8.2 多模态 Agent 成熟
Computer Use 的进化方向
| 能力 | 2024 | 2025 |
|---|---|---|
| 视觉感知 | screenshot 截图 | 实时视频流 |
| 操作精度 | 鼠标点击 | 精准拖拽+手势 |
| 场景理解 | 单窗口 | 多窗口+跨应用 |
| 交互方式 | 键盘+鼠标 | 语音+手势+眼动 |
代表产品/研究:
- Claude 3.5 Computer Use(Anthropic):升级版 GUI 控制
- Operator(OpenAI):Web 自动化 + 深度推理
- UFO 2.0(Microsoft):Windows Agent 全面升级
- OS-World+(OpenGVLab):更大规模的 GUI Agent benchmark
8.3 Multi-Agent 协作深化
从固定模式到自适应协作
| 2024 方案 | 2025 升级 | 代表工作 |
|---|---|---|
| MetaGPT SOP | 动态 SOP 生成 | AutoSOP, SOP-Agent |
| 固定 Role | 动态 Role 分配 | RoleCraft, AgentStudio |
| 中心化 Orchestrator | 去中心化协作 | Mesh-Agent, Collaboration Graphs |
| 串行执行 | 并行+预测执行 | ParallelAgent, SpeculativeAgent |
核心突破:
- Agent 之间的协作不再需要人工设计 SOP,动态生成最优协作流程
- 多 Agent 之间的通信开销大幅降低,效率提升 3-5x
- 协作失败后的自我修复能力成为标配
8.4 RAG 范式持续进化
Agentic RAG 的下一代
| 维度 | 2024 Agentic RAG | 2025 进化 |
|---|---|---|
| 检索粒度 | 文档块 | 知识图谱 triplet |
| 推理能力 | 多跳 | 因果推理 |
| 更新速度 | T+1 | 实时增量 |
| 知识来源 | 结构化文档 | 多模态(图片+视频+音频) |
代表工作:
- HippoRAG:基于知识图谱的 RAG,模拟海马体记忆机制
- GraphRAG(Microsoft):用图谱增强 RAG 的推理能力
- MemoRAG:更强的长期记忆 + RAG 结合
- Adaptive RAG:根据问题类型动态选择检索策略
8.5 推理效率与成本优化
从"暴力推理"到"智能推理"
| 问题 | 2024 方案 | 2025 解决方案 |
|---|---|---|
| Token 消耗高 | 固定 Context | 智能 Context 压缩 |
| 推理速度慢 | 串行推理 | Speculative Decoding |
| 多步推理不稳定 | 增加 Prompt | Tree of Thoughts / Self-Consistency 改进 |
| 长任务规划差 | 固定 Chain | 世界模型 + 规划引擎 |
九、2026 年前沿方向(预览)
9.1 原生 Agent 架构
LLM 从"能推理"到"天生是 Agent"
传统 LLM:
Text Input → LLM → Text Output(需要外部框架才能变成 Agent)
原生 Agent LLM:
Task Input → 内置规划器 → 内置工具选择 → 内置记忆管理 → Action Output代表研究方向:
- Agent-LLM:将 Agent 能力内化到 LLM 架构层面
- Model-Based RL:用世界模型增强规划能力
- Continuous Learning in LLM:LLM 自己的在线学习能力
9.2 世界模型与具身智能
Agent 理解物理世界的能力
| 维度 | 2024 | 2026 预期 |
|---|---|---|
| 世界理解 | 2D 界面 | 3D 空间 |
| 物理常识 | 有限 | 完整 |
| 因果推理 | 统计相关 | 因果链条 |
| 长期规划 | 小时级 | 天/周级 |
代表项目:
- VoxPoser(斯坦福):用 LLMs 规划机器人动作
- RT-2(Google):视觉-语言-动作统一模型
- Physical Intelligence:把大模型能力迁移到机器人
- 世界模型:World Models, DreamerV3, Gemini 物理世界模拟
9.3 多 Agent 社会
Agent 之间的协作与竞争
单一 Agent → Agent 团队 → Agent 社会
2026 趋势:
├── Agent 之间的"语言"标准化(Agent Communication Protocol)
├── Agent 市场出现(Agent Marketplace)
├── Agent 自我复制与分工
└── Agent 治理与安全成为核心议题9.4 自主性与可控性平衡
核心张力:Agent 越自主,能力越强,但也越危险
| 自主性等级 | 能力 | 风险 | 2026 状态 |
|---|---|---|---|
| L1 | 按指令执行 | 低 | 已成熟 |
| L2 | 自主规划 | 中 | 已可用 |
| L3 | 自我改进 | 高 | 研究中 |
| L4 | 自主复制 | 极高 | 治理讨论中 |
十、未来学习路径建议
短期(1-3个月):深化落地
□ 用 Claude Code 实践 Computer Use 架构
□ 用 LangChain/LlamaIndex 搭 Agentic RAG 系统
□ 用 Self-Discovering 思想优化推理 Prompt
□ 跟踪 GitHub Copilot Workspace / Cursor 等产品进展中期(3-6个月):构建完整体系
基础设施:
├── LLM API(Claude / GPT-4 / 本地模型)
├── 向量数据库(Milvus / Pinecone / Chroma)
└── Agent 框架(LangChain / AutoGen / crew.ai)
能力层:
├── 记忆系统(MemGPT 思想)
├── 工具生态(Toolformer 思想)
├── RAG 增强(Agentic RAG 思想)
└── 多 Agent 协作(MetaGPT/AgentVerse 思想)
应用层:
├── 自动化测试(Computer Use 落地)
├── 知识管理(Agentic RAG 落地)
├── 代码助手(Self-Discovering 落地)
└── 个人助手(多能力整合)长期(6-12个月):跟踪前沿
| 方向 | 代表工作 | 核心问题 |
|---|---|---|
| 世界模型 | DreamerV3, World Models | Agent 如何建立世界认知? |
| 具身智能 | RT-2, VoxPoser, Pi | Agent 如何在物理世界行动? |
| 因果推理 | CausalLLM, DoWhy | Agent 如何理解因果关系? |
| 自主学习 | Meta-Learning, L2M | Agent 如何持续自我改进? |
| Agent 安全 | Constitutional AI, RLHF | 如何保证 Agent 可控? |
十一、个人发展建议
┌─────────────────────────────────────────────────────────────┐
│ 个人发展路径 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 【测试架构师 → AI Agent 专家】 │
│ │
│ 我的优势: │
│ ├── 11 年测试架构经验 → 理解复杂系统 │
│ ├── 技术博客 52 篇 → 技术表达能力 │
│ ├── 3 项专利 → 创新思维 │
│ └── 团队管理经验 → 技术+管理复合能力 │
│ │
│ 【短期行动】 │
│ ├── 实践:选一个项目把 Computer Use 跑起来 │
│ ├── 输出:整理 10 篇论文笔记成体系化文档 │
│ └── 分享:给团队做一次 AI Agent 技术分享 │
│ │
│ 【中期目标】 │
│ ├── 在团队推动 AI Agent 试点项目 │
│ ├── 输出 2-3 篇高质量技术博客 │
│ └── 建立公司内 AI Agent 专家影响力 │
│ │
│ 【长期愿景】 │
│ ├── 成为公司 AI Agent 领域权威 │
│ ├── 基于实践申报 1-2 项专利 │
│ └── 用 AI Agent 能力支撑团队 leader 角色 │
│ │
└─────────────────────────────────────────────────────────────┘十二、总结
演进规律
┌─────────────────────────────────────────────────────────────┐
│ 演进规律:一句话总结 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 能力边界不断外推:从"被动响应"到"主动规划" │
│ │
│ 人工参与不断减少:从"人工设计"到"自我发现" │
│ │
│ 任务泛化不断增强:从"固定模式"到"动态适配" │
│ │
│ 感知边界不断扩展:从"文本"到"视觉"到"多模态" │
│ │
└─────────────────────────────────────────────────────────────┘核心洞察
| 维度 | 起点 | 当前 | 未来方向 |
|---|---|---|---|
| 推理结构 | 人工设计 | 自我组合 | 完全自主 |
| 工具使用 | 无 | 智能选择 | 自我创造 |
| 协作方式 | 单 Agent | 动态分工 | 自主协作 |
| 记忆管理 | 无 | 层级管理 | 主动记忆 |
| 感知方式 | 文本 | 视觉+GUI | 多模态 |
| 知识获取 | 内部 | 检索增强 | 实时学习 |
一句话记住 10 篇论文
| 论文 | 一句话 |
|---|---|
| CoT | 让 LLM 学会"think step by step" |
| ReAct | 推理和行动交替进行 |
| Toolformer | LLM 自学使用工具,内化到模型参数 |
| AgentVerse | 多 Agent 动态协作团队 |
| MetaGPT | 用 SOP 约束多 Agent 协作流程 |
| Voyager | 外部技能库解决遗忘问题 |
| MemGPT | 三层记忆 + 中断机制实现主动管理 |
| Computer Use | Agent 第一次用视觉操控真实 GUI |
| Agentic RAG | 给 RAG 加个"大脑",让它会规划判断 |
| Self-Discovering | LLM 自我发现最优推理结构 |
相关论文精读:
- CoT 论文精读
- ReAct 论文精读
- Toolformer 论文精读
- AgentVerse 论文精读
- MetaGPT 论文精读
- Voyager 论文精读
- MemGPT 论文精读
- Computer Use 论文精读
- Agentic RAG 论文精读
- Self-Discovering 论文精读
如果你也在学习 AI Agent,欢迎交流讨论,我的 blog:https://sunrong.site