AI Agent 架构演进全景图：10篇论文核心洞察与 2025-2026 前沿进展

Mr.Sun2026年5月4日...大约 12 分钟

AI Agent 架构演进全景图：10篇论文核心洞察与 2025-2026 前沿进展

从 Chain-of-Thought 到 Self-Discovering，10篇论文串起的 AI Agent 进化之路
本文是对 AI Agent 架构演进的系统性回顾与展望

一、写在前面

过去一段时间，我系统性地学习了 10 篇 AI Agent 领域的核心论文，从 2021 年的 Chain-of-Thought 到 2024 年的 Self-Discovering。这些论文串起来，就是一部 AI Agent 能力进化的编年史。

本文分为两部分：

上篇：10 篇论文的核心洞察与架构演进
下篇：2025-2026 年的最新进展与未来展望

上篇：10篇论文核心洞察

论文学习清单

#	论文	时间	核心贡献	状态
1	Chain-of-Thought	2022	逐步推理提示	✅
2	ReAct	2023	推理+行动交替	✅
3	Toolformer	2023	LLM 自学工具	✅
4	AgentVerse	2022	多 Agent 动态协作	✅
5	MetaGPT	2023	结构化 SOP 协作	✅
6	Voyager	2023	具身智能+外部技能库	✅
7	MemGPT	2023	层级记忆管理	✅
8	Computer Use	2024	多模态 GUI 控制	✅
9	Agentic RAG	2024	检索增强+Agent	✅
10	Self-Discovering	2024	自我组合推理结构	✅

二、整体演进时间线

2021-2022        2023                          2024
   │              │                              │
   ▼              ▼                              ▼
┌─────┐      ┌─────┐      ┌─────┐      ┌─────┐
│ CoT │  →   │ReAct│  →   │Voyager│ →   │Self- │
│     │      │     │      │      │      │Discover│
└─────┘      └─────┘      └─────┘      └─────┘
   │              │              │              │
   │              ▼              ▼              │
   │         ┌─────┐      ┌─────┐            │
   │         │Tool-│  →   │Meta-│            │
   │         │former│     │GPT  │            │
   │         └─────┘      └─────┘            │
   │              │              │              │
   │              ▼              ▼              ▼
   │         ┌─────┐      ┌─────┐      ┌─────┐
   │         │Agent│      │Computer│    │Agentic│
   │         │Verse│  →   │Use   │  →  │RAG  │
   │         └─────┘      └─────┘      └─────┘
   │                                          │
   └──────────────────────────────────────────┘
                      │
                      ▼
               ┌─────┐
               │MemGPT│
               └─────┘

三、分维度演进详解

维度 1：推理能力演进

CoT（2022）：单步线性推理
    ↓
ReAct（2023）：推理与行动交织
    ↓
Self-Discovering（2024）：动态选择最优推理路径

方法	做法	局限
CoT	人工设计推理步骤	只能线性推理，不适合复杂任务
ReAct	边推理边行动	模式固定，泛化能力差
Self-Discovering	LLM 自我组合推理模块	可网状/并行/组合，泛化能力强

核心演进逻辑：推理结构从"人工指定"到"自我发现"

维度 2：工具使用演进

无工具（2021）：纯推理
    ↓
Toolformer（2023）：LLM 自学工具，内化到参数
    ↓
Function Calling（2024）：显式工具调用
    ↓
Agentic Tool Use（2025+）：智能选择最优工具

方法	做法	特点
Toolformer	自监督学习，把工具内化到模型	训练一次，永久掌握
Function Calling	显式 API 调用	灵活但需人工定义
Agentic Tool Use	Agent 自己决定用什么工具	动态自适应

维度 3：多 Agent 协作演进

单 Agent（2021）
    ↓
AgentVerse（2022）：动态协作团队
    ↓
MetaGPT（2023）：结构化 SOP 约束
    ↓
Orchestrator（2024）：总指挥+分工 Agent

方法	核心创新	适用场景
AgentVerse	动态组队	开放任务
MetaGPT	SOP 约束通信	封闭任务，有标准流程
Orchestrator	总指挥分解+整合	复杂任务，多应用协作

维度 4：记忆管理演进

无记忆（2021）：每次独立，无上下文
    ↓
向量数据库（2022）：外部向量存储
    ↓
MemGPT（2023）：三层记忆+中断机制
    ↓
主动记忆管理（2025+）：Agent 自己决定记什么

方法	核心机制	突破
RAG	向量相似度检索	解决知识时效性问题
MemGPT	Core/Recall/Archive 三层 + 中断	主动记忆管理
主动记忆	Agent 自己判断该记什么	减少无关信息干扰

维度 5：感知与执行演进

纯文本（2021-2023）：API/代码操作
    ↓
Computer Use（2024）：视觉感知 + 鼠标键盘操作
    ↓
多模态感知（2025+）：视觉+听觉+触觉+空间感知

方法	观察方式	操作方式
传统 Agent	文本描述	API 调用
Computer Use	screenshot 像素	mouse/keyboard
多模态 Agent	视觉+听觉+传感器	物理世界交互

维度 6：知识管理演进

LLM 内部知识（2021）：静态，有截止日期
    ↓
RAG（2022）：外部向量检索
    ↓
Agentic RAG（2024）：Query改写+路由+迭代+多跳
    ↓
动态知识图谱（2025+）：实时更新+因果推理

方法	核心能力	局限
RAG	解决知识时效性	一次检索，无法迭代
Agentic RAG	迭代优化+多跳推理	计算成本高
动态知识图谱	实时更新+因果	技术复杂度高

四、十大架构模式全景图

┌─────────────────────────────────────────────────────────────┐
│              AI Agent 架构模式全景图                           │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  【模式1：单步推理】                                          │
│  CoT ──────────────────────────────────────────────────►    │
│                                                              │
│  【模式2：循环推理+行动】                                      │
│  ReAct ──► Act ──► Observe ──► Think ──►                      │
│           ↑___________________________________________│     │
│                                                              │
│  【模式3：工具内化】                                          │
│  Toolformer ───► 自监督学习 ───► 内化到模型参数               │
│                                                              │
│  【模式4：多 Agent 协作】                                     │
│  AgentVerse ──► 动态组队 ──► 协作执行 ──► 结果汇总            │
│                                                              │
│  【模式5：结构化 SOP】                                        │
│  MetaGPT ──► Role定义 ──► SOP约束 ──► 结构化通信             │
│                                                              │
│  【模式6：外部技能库】                                        │
│  Voyager ──► Skill Library ──► 终身积累 ──► 永不遗忘         │
│                                                              │
│  【模式7：层级记忆】                                          │
│  MemGPT ──► Core ──► Recall ──► Archive ──► 中断恢复          │
│                                                              │
│  【模式8：视觉感知+物理操作】                                  │
│  Computer Use ──► Screenshot ──► LLM推理 ──► Mouse/Keyboard  │
│                                                              │
│  【模式9：智能检索】                                          │
│  Agentic RAG ──► Query改写 ──► 路由 ──► 迭代 ──► 多跳       │
│                                                              │
│  【模式10：自我组合推理】                                      │
│  Self-Discovering ──► 发现 ──► 组合 ──► 执行                  │
│                                                              │
└─────────────────────────────────────────────────────────────┘

五、十大里程碑

#	论文	里程碑意义
1	CoT	让 LLM 学会"think step by step"，推理能力从0到1
3	Toolformer	LLM 第一次学会"自学工具"，工具使用内化到参数
4	AgentVerse	多 Agent 协作从0到1，动态组队协作
6	Voyager	外部 Skill Library 解决遗忘问题，实现终身学习
7	MemGPT	三层记忆+中断机制，实现主动记忆管理
8	Computer Use	Agent 第一次"看见"真实世界，像人一样操作 GUI
10	Self-Discovering	推理结构从人工设计到自我发现，泛化能力质变

六、知识体系自查清单

┌─────────────────────────────────────────────────────────────┐
│                 AI Agent 核心知识体系 - 自查清单                  │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  【推理能力】                                                 │
│  □ 能解释 CoT 的"逐步思考"原理                                │
│  □ 能解释 ReAct 的"推理-行动-观察"循环                        │
│  □ 能解释 Self-Discovering 的"发现-组合-执行"流程            │
│                                                              │
│  【工具使用】                                                 │
│  □ 能解释 Toolformer 的自监督学习方式                         │
│  □ 能区分 Toolformer vs Function Calling                     │
│                                                              │
│  【多Agent协作】                                              │
│  □ 能解释 AgentVerse 的动态组队机制                           │
│  □ 能解释 MetaGPT 的 SOP 约束机制                             │
│                                                              │
│  【记忆管理】                                                 │
│  □ 能解释 MemGPT 三层记忆的设计原理                           │
│  □ 能解释中断机制的作用                                       │
│                                                              │
│  【感知执行】                                                 │
│  □ 能解释 Computer Use 的 screenshot 机制                     │
│  □ 能解释 Orchestrator 的任务分解逻辑                        │
│                                                              │
│  【知识管理】                                                 │
│  □ 能解释 Agentic RAG 四大机制                                │
│  □ 能判断什么问题需要多跳检索                                 │
│                                                              │
└─────────────────────────────────────────────────────────────┘

下篇：2025-2026 前沿进展

七、2025-2026 技术演进概览

2024年底                          2025                          2026
   │                                │                              │
   ▼                                ▼                              ▼
Self-Discovering              Agent 2.0                   原生Agent
                                 │                              │
                                 ▼                              ▼
                          ┌─────────┐                 ┌─────────────┐
                          │ 多模态  │                 │ 自主规划    │
                          │ 深度融合 │                 │ + 世界模型  │
                          └─────────┘                 └─────────────┘
                                 │                              │
                                 ▼                              ▼
                          ┌─────────┐                 ┌─────────────┐
                          │ Agent  │                 │ 长期记忆    │
                          │ Memory │                 │ + 因果推理  │
                          │ 升级   │                 └─────────────┘
                          └─────────┘

八、2025 年核心技术进展

8.1 Agent Memory 范式升级

从被动检索到主动记忆

2024 主流方案	2025 升级方向	代表工作
MemGPT 三层记忆	主动记忆选择	MetaGPT-Memory, AgentEgo
向量数据库	向量+图谱混合	GraphRAG, HippoRAG
外部存储	Agent 自己决定记什么	Recall, Memory Networks

核心突破：

Agent 不再被动等检索，而是主动判断"我需要记住什么"
长期记忆和短期工作记忆的边界被重新定义
记忆压缩技术大幅提升 recall 效率

8.2 多模态 Agent 成熟

Computer Use 的进化方向

能力	2024	2025
视觉感知	screenshot 截图	实时视频流
操作精度	鼠标点击	精准拖拽+手势
场景理解	单窗口	多窗口+跨应用
交互方式	键盘+鼠标	语音+手势+眼动

代表产品/研究：

Claude 3.5 Computer Use（Anthropic）：升级版 GUI 控制
Operator（OpenAI）：Web 自动化 + 深度推理
UFO 2.0（Microsoft）：Windows Agent 全面升级
OS-World+（OpenGVLab）：更大规模的 GUI Agent benchmark

8.3 Multi-Agent 协作深化

从固定模式到自适应协作

2024 方案	2025 升级	代表工作
MetaGPT SOP	动态 SOP 生成	AutoSOP, SOP-Agent
固定 Role	动态 Role 分配	RoleCraft, AgentStudio
中心化 Orchestrator	去中心化协作	Mesh-Agent, Collaboration Graphs
串行执行	并行+预测执行	ParallelAgent, SpeculativeAgent

核心突破：

Agent 之间的协作不再需要人工设计 SOP，动态生成最优协作流程
多 Agent 之间的通信开销大幅降低，效率提升 3-5x
协作失败后的自我修复能力成为标配

8.4 RAG 范式持续进化

Agentic RAG 的下一代

维度	2024 Agentic RAG	2025 进化
检索粒度	文档块	知识图谱 triplet
推理能力	多跳	因果推理
更新速度	T+1	实时增量
知识来源	结构化文档	多模态（图片+视频+音频）

代表工作：

HippoRAG：基于知识图谱的 RAG，模拟海马体记忆机制
GraphRAG（Microsoft）：用图谱增强 RAG 的推理能力
MemoRAG：更强的长期记忆 + RAG 结合
Adaptive RAG：根据问题类型动态选择检索策略

8.5 推理效率与成本优化

从"暴力推理"到"智能推理"

问题	2024 方案	2025 解决方案
Token 消耗高	固定 Context	智能 Context 压缩
推理速度慢	串行推理	Speculative Decoding
多步推理不稳定	增加 Prompt	Tree of Thoughts / Self-Consistency 改进
长任务规划差	固定 Chain	世界模型 + 规划引擎

九、2026 年前沿方向（预览）

9.1 原生 Agent 架构

LLM 从"能推理"到"天生是 Agent"

传统 LLM：
Text Input → LLM → Text Output（需要外部框架才能变成 Agent）

原生 Agent LLM：
Task Input → 内置规划器 → 内置工具选择 → 内置记忆管理 → Action Output

代表研究方向：

Agent-LLM：将 Agent 能力内化到 LLM 架构层面
Model-Based RL：用世界模型增强规划能力
Continuous Learning in LLM：LLM 自己的在线学习能力

9.2 世界模型与具身智能

Agent 理解物理世界的能力

维度	2024	2026 预期
世界理解	2D 界面	3D 空间
物理常识	有限	完整
因果推理	统计相关	因果链条
长期规划	小时级	天/周级

代表项目：

VoxPoser（斯坦福）：用 LLMs 规划机器人动作
RT-2（Google）：视觉-语言-动作统一模型
Physical Intelligence：把大模型能力迁移到机器人
世界模型：World Models, DreamerV3, Gemini 物理世界模拟

9.3 多 Agent 社会

Agent 之间的协作与竞争

单一 Agent → Agent 团队 → Agent 社会

2026 趋势：
├── Agent 之间的"语言"标准化（Agent Communication Protocol）
├── Agent 市场出现（Agent Marketplace）
├── Agent 自我复制与分工
└── Agent 治理与安全成为核心议题

9.4 自主性与可控性平衡

核心张力：Agent 越自主，能力越强，但也越危险

自主性等级	能力	风险	2026 状态
L1	按指令执行	低	已成熟
L2	自主规划	中	已可用
L3	自我改进	高	研究中
L4	自主复制	极高	治理讨论中

十、未来学习路径建议

短期（1-3个月）：深化落地

□ 用 Claude Code 实践 Computer Use 架构
□ 用 LangChain/LlamaIndex 搭 Agentic RAG 系统
□ 用 Self-Discovering 思想优化推理 Prompt
□ 跟踪 GitHub Copilot Workspace / Cursor 等产品进展

中期（3-6个月）：构建完整体系

基础设施：
├── LLM API（Claude / GPT-4 / 本地模型）
├── 向量数据库（Milvus / Pinecone / Chroma）
└── Agent 框架（LangChain / AutoGen / crew.ai）

能力层：
├── 记忆系统（MemGPT 思想）
├── 工具生态（Toolformer 思想）
├── RAG 增强（Agentic RAG 思想）
└── 多 Agent 协作（MetaGPT/AgentVerse 思想）

应用层：
├── 自动化测试（Computer Use 落地）
├── 知识管理（Agentic RAG 落地）
├── 代码助手（Self-Discovering 落地）
└── 个人助手（多能力整合）

长期（6-12个月）：跟踪前沿

方向	代表工作	核心问题
世界模型	DreamerV3, World Models	Agent 如何建立世界认知？
具身智能	RT-2, VoxPoser, Pi	Agent 如何在物理世界行动？
因果推理	CausalLLM, DoWhy	Agent 如何理解因果关系？
自主学习	Meta-Learning, L2M	Agent 如何持续自我改进？
Agent 安全	Constitutional AI, RLHF	如何保证 Agent 可控？

十一、个人发展建议

┌─────────────────────────────────────────────────────────────┐
│                    个人发展路径                                │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  【测试架构师 → AI Agent 专家】                               │
│                                                              │
│  我的优势：                                                   │
│  ├── 11 年测试架构经验 → 理解复杂系统                         │
│  ├── 技术博客 52 篇 → 技术表达能力                            │
│  ├── 3 项专利 → 创新思维                                     │
│  └── 团队管理经验 → 技术+管理复合能力                         │
│                                                              │
│  【短期行动】                                                 │
│  ├── 实践：选一个项目把 Computer Use 跑起来                   │
│  ├── 输出：整理 10 篇论文笔记成体系化文档                      │
│  └── 分享：给团队做一次 AI Agent 技术分享                      │
│                                                              │
│  【中期目标】                                                 │
│  ├── 在团队推动 AI Agent 试点项目                             │
│  ├── 输出 2-3 篇高质量技术博客                                │
│  └── 建立公司内 AI Agent 专家影响力                           │
│                                                              │
│  【长期愿景】                                                 │
│  ├── 成为公司 AI Agent 领域权威                               │
│  ├── 基于实践申报 1-2 项专利                                  │
│  └── 用 AI Agent 能力支撑团队 leader 角色                      │
│                                                              │
└─────────────────────────────────────────────────────────────┘

十二、总结

演进规律

┌─────────────────────────────────────────────────────────────┐
│                    演进规律：一句话总结                         │
├─────────────────────────────────────────────────────────────┤
│                                                              │
│  能力边界不断外推：从"被动响应"到"主动规划"                     │
│                                                              │
│  人工参与不断减少：从"人工设计"到"自我发现"                      │
│                                                              │
│  任务泛化不断增强：从"固定模式"到"动态适配"                      │
│                                                              │
│  感知边界不断扩展：从"文本"到"视觉"到"多模态"                   │
│                                                              │
└─────────────────────────────────────────────────────────────┘

核心洞察

维度	起点	当前	未来方向
推理结构	人工设计	自我组合	完全自主
工具使用	无	智能选择	自我创造
协作方式	单 Agent	动态分工	自主协作
记忆管理	无	层级管理	主动记忆
感知方式	文本	视觉+GUI	多模态
知识获取	内部	检索增强	实时学习

一句话记住 10 篇论文

论文	一句话
CoT	让 LLM 学会"think step by step"
ReAct	推理和行动交替进行
Toolformer	LLM 自学使用工具，内化到模型参数
AgentVerse	多 Agent 动态协作团队
MetaGPT	用 SOP 约束多 Agent 协作流程
Voyager	外部技能库解决遗忘问题
MemGPT	三层记忆 + 中断机制实现主动管理
Computer Use	Agent 第一次用视觉操控真实 GUI
Agentic RAG	给 RAG 加个"大脑"，让它会规划判断
Self-Discovering	LLM 自我发现最优推理结构

相关论文精读：

如果你也在学习 AI Agent，欢迎交流讨论，我的 blog：https://sunrong.site

贡献者

sunrong DaveSun Rong