Self-Discovering 论文深度解读：LLM 自我组合推理结构的突破性方法

Mr.Sun2026年5月4日...大约 11 分钟

Self-Discovering 论文深度解读：LLM 自我组合推理结构的突破性方法

Self-Discover: Large Language Models Self-Compose Reasoning Structures
论文：Google DeepMind（Zhou et al.），2024
原文链接：https://arxiv.org/abs/2402.03620
本文记录我的论文学习过程与核心理解

一、论文基础介绍

基本信息

项目	信息
论文	Self-Discover: Large Language Models Self-Compose Reasoning Structures
原文链接	https://arxiv.org/abs/2402.03620
作者	Google DeepMind（Zhou, Hu, Liu, Welleck et al.）
时间	2024
核心贡献	① 两阶段推理框架（Discover + Execute）② 原子推理模块库 ③ 自我组合推理结构
引用	150+（Semantic Scholar）
开源	https://github.com/google-deepmind/self-discover

论文背景与动机

在前九篇论文中，我们依次解决了：

CoT：推理能力
ReAct：推理+行动协同
Toolformer：自主工具使用
AgentVerse：多 Agent 协作
MetaGPT：结构化 SOP 协作
Voyager：终身学习能力
MemGPT：层级记忆管理
Computer Use：多模态 GUI 控制
Agentic RAG：检索增强+Agent

但有一个根本问题始终存在：

之前所有方法的推理结构都是"人工设计"的——谁来告诉 LLM 遇到这个任务该用什么推理结构？

CoT：人工设计推理步骤，适合简单任务
ReAct：人工设计推理+行动模式，泛化能力有限
Self-Ask：人工设计分解问题的方式，无法处理跨领域组合

Self-Discovering 要解决的核心问题是：

如何让 LLM 面对任何复杂任务时，都能自动发现并组合出最适合这个任务的推理结构？

二、核心问题

传统方法的困境

方法	推理结构来源	局限
CoT	人工设计或简单提示	只能做线性推理，无法处理复杂多步骤问题
ReAct	人工设计	模式固定，泛化能力差，新任务需要新设计
Self-Ask	人工设计分解方式	分解能力有限，无法处理需要跨领域组合的问题

核心洞察

之前的方法都是"人来告诉 LLM 怎么推理"，Self-Discovering 是"LLM 自己决定怎么推理"。

关键区别：

方法	推理结构来源	灵活性
CoT / ReAct	人工预设	低（遇到新任务需要重新设计）
Self-Discovering	LLM 自我发现	高（面对任何任务都能自我定制）

三、核心思想：自我组合推理结构

一句话总结

LLM 在面对复杂任务时，自动从多个原子推理模块中选择和组合，形成针对这个任务的专属推理路径。

传统方法：人工设计推理链 → LLM 按固定步骤执行
Self-Discovering：LLM 自我发现推理结构 → 自动组合最优路径

原子推理模块（Atomic Reasoning Modules）

LLM 事先知道若干原子推理模块，就像乐高积木：

模块名称	作用	例子
Step-by-Step	逐步分解执行	"首先...然后...最后..."
Recall	从记忆中检索相关知识	回忆类似问题的解法
Abstraction	把问题泛化到更高层次思考	"这个问题的本质是..."
Concretization	把抽象问题落到具体场景	"具体来说，这意味着..."
Reformulation	换一种方式描述问题	"换句话说..."
Decomposition	把复杂问题拆成子问题	"这个问题涉及三个方面..."
Recomposition	把子问题解法组合成整体解法	"综合以上..."
Verification	检验中间结果是否正确	"验证：是否满足约束条件..."

模块知识存放在哪里？

答案是：放在 prompt/instruction 里面，不是模型参数里面。

Self-Discovering 的工作方式：

系统 prompt 中包含：
"你有以下原子推理模块可用：
- Step-by-Step（逐步分解）
- Decomposition（拆分）
- Abstraction（抽离）
- ...（其他模块）

面对任务时，先选择合适的模块组合，再执行。"

↓

LLM 根据 prompt 中的模块定义，自己选择和组合

设计哲学：

模块库是外部知识（prompt 告诉它有哪些工具）
选择和组合是LLM 的推理能力（它自己决定怎么用）

类比理解：

原子模块 = 工具箱里的工具（prompt 告诉 LLM 有哪些工具）
选择组合 = LLM 根据任务自己挑工具、组合使用

四、两阶段流程

┌─────────────────────────────────────────────────────────────┐
│                    Stage 1: 发现（Discover）                    │
│                                                              │
│  输入：复杂任务 T                                              │
│  LLM 从原子模块库中选择 → 组合成针对 T 的推理结构               │
│  输出：针对这个任务的"推理蓝图"                                 │
└─────────────────────────────────────────────────────────────┘
                            ↓
┌─────────────────────────────────────────────────────────────┐
│                    Stage 2: 执行（Execute）                    │
│                                                              │
│  按照推理蓝图逐步执行                                          │
│  每个步骤调用对应原子模块                                      │
│  输出：最终答案                                               │
└─────────────────────────────────────────────────────────────┘

Stage 1：发现阶段（Discover）

问题："如何评估在上海开一家奶茶店的市场前景？"

LLM 自我思考过程：
1. 这个问题涉及哪些方面？
   → 市场分析、财务评估、竞争分析、选址评估

2. 每个方面用什么推理模块？
   → 拆分（Decomposition）+ 具体化（Concretization）

3. 这些模块怎么组合？
   → 先拆分维度，再逐个具体分析，最后组合结论

生成推理蓝图：
[拆分] → [市场分析] → [竞争分析] → [财务测算] → [组合] → [验证]

Stage 2：执行阶段（Execute）

按照 Stage 1 生成的蓝图执行：

Step 1: 拆分问题维度（奶茶店评估 = 市场 + 竞争 + 财务 + 选址）
Step 2: 具体分析市场容量（上海人口、消费能力、奶茶市场规模）
Step 3: 具体分析竞争格局（主要品牌、市场份额、差异化机会）
Step 4: 财务测算（投入成本、预期收入、回本周期）
Step 5: 组合成完整评估报告
Step 6: 验证逻辑是否自洽（数据是否合理、结论是否支持）

为什么不能合二为一？

"想"和"做"混在一起会互相干扰：

合并的问题	分开的好处
一边想推理结构，一边执行	Stage 1 专注思考"用什么结构"，不受执行干扰
执行时可能打断规划思路	Stage 2 专注执行"按计划行动"，不需要重新思考结构
规划时可能忽略执行细节	两者职责单一，输出更稳定

两者能力不同：

Stage 1 需要任务理解 + 模块选择 + 组合规划能力
Stage 2 需要执行 + 推理 + 验证能力

五、与前文方法的对比

Self-Discovering vs CoT/ReAct

维度	CoT	ReAct	Self-Discovering
推理结构来源	人工设计或简单提示	人工设计	LLM 自我发现
推理模式	线性逐步	线性+行动	可线性/网状/并行
适配新任务	差	中等	强
复杂多步骤	一般	好	很强
跨领域泛化	差	差	好

为什么 Self-Discovering 更有效？

核心原因：LLM 具备"任务理解能力"

人工设计的问题：设计者不知道 LLM 会遇到什么任务
Self-Discovering：LLM 知道自己面对什么任务 → 自我定制推理路径

LLM 在发现阶段已经理解了这个具体任务的特点：

这个问题涉及哪些方面？
这些方面之间的关系是什么？
用什么顺序处理最合理？

模型如何选择最优路径？

不是"搜索最优"，而是"凭直觉选择"

LLM 选择推理结构的方式 ≠ 算法搜索
LLM 选择推理结构的方式 ≈ 人类专家凭经验选择

LLM 的选择过程：

看到任务描述
激活相关知识（见过类似任务怎么处理）
直接"想到"合适的模块组合

这就是论文标题 "Self-Compose" 的含义 —— LLM 自我组合推理结构，不是穷举搜索。

六、与前文的递进关系

AI Agent 推理能力演进

固定推理链 (CoT)
       ↓
推理+行动 (ReAct)
       ↓
人工设计工具 (Toolformer)
       ↓
多Agent协作 (AgentVerse/MetaGPT)
       ↓
外部技能库 (Voyager)
       ↓
层级记忆 (MemGPT)
       ↓
视觉感知 (Computer Use)
       ↓
检索增强 (Agentic RAG)
       ↓
自我组合推理 (Self-Discovering)  ← NEW

关键跨越

维度	之前的状态	Self-Discovering 的突破
推理结构	人工预设	LLM 自我发现
任务适配	固定模式	动态定制
复杂推理	线性逐步	可网状/并行/组合

七、典型实际应用场景

场景一：复杂问题分析与决策

场景描述： 企业高管需要分析复杂商业问题，做出战略决策

具体应用：

"是否应该进入东南亚市场？"
Self-Discovering 自动选择：问题拆解 → 市场分析 → 风险评估 → 财务测算 → 综合决策

代表产品：

麦肯锡 AI 顾问（商业战略分析）
Bloomberg GPT（金融分析）
Anthropic Claude（战略咨询）

价值： 从"给框架让 AI 填内容"变成"AI 自己选择分析框架"，决策质量更高

场景二：代码架构设计

场景描述： 架构师需要设计复杂系统，平衡多维度需求

具体应用：

"如何设计一个日活 1000 万的即时通讯系统？"
Self-Discovering 自动选择：需求分解 → 技术选型 → 架构设计 → 风险分析 → 成本评估

代表产品：

GitHub Copilot Enterprise（代码生成 + 架构建议）
Cursor（AI 代码编辑器）
Amazon CodeWhisperer（云原生架构建议）

价值： AI 能理解"这个系统需要什么"，而不是套用固定模板

场景三：科学研究假设生成

场景描述： 科学家需要从大量数据中发现规律，提出新假设

具体应用：

"从这批基因表达数据中，能得出什么生物学结论？"
Self-Discovering 自动选择：数据探索 → 模式识别 → 假设生成 → 验证分析

代表产品：

AlphaFold（蛋白质结构预测）
DeepMind GNoME（材料科学发现）
IBM Watson Discovery（科研文献分析）

价值： AI 能自主设计分析路径，加速科学发现

八、知识要点

知识要点 1：Self-Discovering vs 传统方法的核心区别

问题： Self-Discovering 和 CoT/ReAct 的本质区别是什么？为什么"自我发现"比"人工设计"更优越？

掌握要点：

区别	CoT / ReAct	Self-Discovering
推理结构来源	人工预设	LLM 自我发现
推理模式	线性逐步	可线性/网状/并行
任务适配	差，需为新任务重新设计	强，自动为任务定制
复杂多步骤	一般	很强

为什么更优越：

动态适配：面对任何新任务，LLM 都能自动发现合适的推理结构
灵活组合：可以从原子模块中选择最优组合，不局限于单一模式
跨领域泛化：不需要人工为每个领域设计推理模式

原子模块的存放位置： 在 prompt/instruction 中，不在模型参数里。模块是"工具箱"，LLM 根据任务自由选择和组合。

知识要点 2：两阶段流程

问题： Stage 1（Discover）和 Stage 2（Execute）为什么不能合二为一？

掌握要点：

阶段	职责	需要的能力
Stage 1: Discover	理解任务、选择模块、组合推理结构	任务理解 + 规划能力
Stage 2: Execute	按计划执行每步推理	执行能力 + 推理能力 + 验证能力

为什么不能合并：

职责冲突："想"和"做"混在一起会互相干扰
能力不同：规划能力和执行能力需要不同的思维模式
稳定性：分开后每个阶段输出更稳定、可解释性更强

知识要点 3：原子推理模块

问题： 原子推理模块库的意义是什么？为什么需要预先定义，而不是让 LLM 完全自由发挥？

掌握要点：

原子模块的作用：

约束范围：防止 LLM 选择不常用或不稳定的推理方式
防止组合爆炸：有限模块组合数量可控
引导优先：告诉 LLM 有哪些成熟、稳定的推理模式可用

为什么不能完全自由发挥：

无限组合会导致输出不稳定
可能选择不常见的推理路径，难以解释和验证
原子模块是"引导"而非"限制"——LLM 仍可选任意组合，但优先用现成的

模块知识的存放： 放在 prompt 中，告诉 LLM"你有这些工具可用"，LLM 根据任务自主选择和组合。

九、总结

维度	Self-Discovering
论文质量	⭐⭐⭐⭐⭐
创新程度	两阶段框架 + 原子模块自我组合
实战价值	高（复杂问题分析、决策支持、科学研究）
启发意义	开启了"LLM 自我定制推理结构"的新范式

一句话总结： Self-Discovering 让 LLM 从"按人工设计的步骤推理"进化到"自我发现并组合最优推理结构"，是推理能力的重要突破。

相关论文：

如果你也在学习 AI Agent，欢迎交流讨论，我的 blog：https://sunrong.site

贡献者

sunrong Dave