华为 TMG 主任曹阳:企业 Agent 的演进之路(15 个金句 + 完整框架)
华为 TMG 主任曹阳:企业 Agent 的演进之路(15 个金句 + 完整框架)
6-6 上午 09:18 听了华为 TMG 主任曹阳的"企业 Agent 演进之路"。 这是同公司的官方视角,对我部门硬件测试 Agent 化是直接背书。15 个金句全部能写进 PPT 引用部分。
📌 这篇博客的特殊性
| 项 | 内容 |
|---|---|
| 讲者 | 曹阳(华为 TMG 主任) |
| 会议 | 2026 开发者大会 |
| 时间 | 2026-06-06 09:18-09:55 |
| 主题 | 企业 Agent 的演进之路 |
| 特殊性 | 同公司视角 = 部门 PPT 可直接引用 |
| 作用 | 给我部门硬件测试 Agent 化官方背书 |
关键洞察:这一场 talk 不是"听新东西",是"给我们的方向盖一个华为的章"。
一、企业级 AI vs 消费级 AI 的本质区别 ⭐⭐⭐⭐⭐
曹阳开场就划清了企业级 AI 的 4 个本质区别:
1. 企业任务比专家更专业
"企业任务非常复杂,涉及专业知识、组织流程、特定行业专业问题。比专家更专业。"
含义:
- 消费级 AI:通用对话,能"还行"
- 企业级 AI:必须超越人类专家才有价值
对测试的启示:
"我们的测试 Agent 必须比 11 年 TSE 更懂硬件测试,否则无价值。"
2. 千企千面
"适配定制,千企千面。"
含义:
- 没有"通用企业 Agent"
- 每个企业必须深度定制
对测试的启示:
"我们部门的 4 个 SKILL = 定制化的起点。我们不和别的企业共用。"
3. 可追溯 / 可审计 / 可解释性
"群体责任,关于企业命脉,需要可追溯、可审计、可解释性。"
含义:
- 消费级 AI 出错 = 用户骂
- 企业级 AI 出错 = 法律责任
对测试的启示:
"测试 Agent 必须留下决策证据链——为什么这个用例、为什么这个 pass/fail 判定。"
4. 资产不出公司
"核心资产保护,资产不出公司。"
含义:
- 数据 = 企业命脉
- 不能用消费级 API 跑企业数据
对测试的启示:
"我们的测试数据、4 个 SKILL、RAG 知识库 = 全部私有部署。"
二、Harness 工程完整定义 ⭐⭐⭐⭐⭐⭐
核心定义
"除了模型,其他都是 Harness。"
一句话定义 Harness = 模型之外的所有基础设施。
6 大组成
| # | 组成 | 作用 |
|---|---|---|
| 1 | 状态持久化 | 让 Agent 不丢上下文 |
| 2 | Memory | 长期记忆 + 经验 |
| 3 | 沙箱 | 隔离 + 防"炸" |
| 4 | 验证与护栏 | 防止越权 + 异常 |
| 5 | 模型 | LLM 推理 |
| 6 | 指令与人设 | Agent 角色定义 |
| 7 | 工具扩展 | MCP 接口 |
周期性清理防止熵增
"周期性清理防止熵增。"
含义:
- Agent 跑久了,状态会"乱"
- 必须定期清理 + 回顾
- 防止错误累积
对测试的启示:
"测试 Harness 必须有'熵增治理'机制——定期清理过期用例、回顾失败 Agent 决策、迭代 SKILL 库。"
与黄佳 09:52 talk 的呼应
| 黄佳 | 曹阳 |
|---|---|
| "模型花钱,Harness 管钱" | "除了模型,其他都是 Harness" |
| 概念级别 | 架构级别 |
两场 talk 完整闭环。
三、3 维能力边界 ⭐⭐⭐⭐
曹阳把"企业 Agent 能力"分成 3 维:
1. 知识连接 = 判断力
"判断力的来源——Skill 和知识库,提供经验、知识等面向任务的上下文。"
- 来源:Skill + 知识库
- 比喻:军师的脑子
2. 系统连接 = 行动力
"行动力来源——通过 Skill/MCP 服务,提供业务系统连接。"
- 来源:Skill/MCP + 业务系统
- 比喻:战士的手脚
3. 安全审计 = 治理力
"安全和审计——权限、数据隔离。"
- 来源:权限 + 数据隔离
- 比喻:军队的纪律
3 维 × 对应硬件测试 PPT
| 曹阳 3 维 | 硬件测试 PPT 对应 |
|---|---|
| 知识连接(判断力) | 变革一·经验提取 & 知识引擎 |
| 系统连接(行动力) | 变革一·服务化能力(MCP) |
| 安全审计(治理力) | 变革一·可信环境 + "四性" 治理 |
3 维 × 3 个对应点 = 完美对位。
四、能力沉淀 = 护城河 ⭐⭐⭐⭐⭐⭐
核心论断
"核心不是实现能力,而是能力资产沉淀,让资产越用越厚,成为护城河。"
这是一个范式转变:
| 旧认知 | 新认知(曹阳) |
|---|---|
| 谁能用 AI 写出功能 = 强 | 谁能沉淀可复用能力资产 = 强 |
| 代码多 = 强 | SKILL 多 + 飞轮快 = 强 |
| 工具多 = 强 | 资产护城河 = 强 |
6 大能力资产组成
| # | 资产 | 含义 |
|---|---|---|
| 1 | Skill | 沉淀领域知识 + 业务流包 + 数据读写 |
| 2 | MCP | 工具能力 + 系统对接 |
| 3 | 记忆(飞轮) | 长期经验 + 反馈 |
| 4 | 人设角色 | Agent 角色定义 |
| 5 | 评测 Eval | 质量度量 + 迭代依据 |
| 6 | 安全审计护栏 | 治理 + 合规 |
金句
"Harness 是企业最具差异化的核心能力。" ⭐⭐⭐⭐⭐
这意味着:
- 任何企业都能买到同样的模型
- 但 Harness 是企业独有的护城河
- 谁先沉淀,谁就领先
对我部门硬件测试的意义
我们 4 个 SKILL 沉淀 = 护城河的种子。别人要复制,至少要 1-2 年。
五、评测 = Harness 自迭代基础 ⭐⭐⭐⭐⭐
核心论断
"评测是 Harness 自迭代的基础,需要构建评测集。"
含义:
- 评测不是为了"通过"
- 评测是为了"让 Harness 越用越强"
评测的 3 个层级
| 层级 | 作用 | 时间维度 |
|---|---|---|
| 短期 | 监控 Agent 质量 | 当前项目 |
| 中期 | 识别 Agent 弱项 | 跨项目 |
| 长期 | 驱动 Harness 自我进化 | 跨年 |
Agent 自演进机制
"把每一次执行后的轨迹、反馈和修正,进行沉淀。"
执行 → 反馈 → 修正 → 沉淀
↑__________________________↓这就是"测试数据飞轮"的具体机制!
六、"人定边界,agent 定路径" ⭐⭐⭐⭐⭐⭐
核心论断
"人定边界,agent 定路径。"
这是我听过的最精炼的"人机分工"金句。
| 角色 | 职责 |
|---|---|
| 人 | 定边界(规则、安全、范围、合规) |
| Agent | 定路径(具体怎么实现) |
与之前 4 场 talk 的呼应
| 讲者 | 金句 | 与"人定边界"的关系 |
|---|---|---|
| 张刚 09:00 | 问题定义 > 方案设计 > 构建 | 人 = 问题定义 |
| 复旦 09:45 | AI 擅长构建,难点 = 分析设计 | 人 = 分析设计 |
| 黄佳 09:52 | 模型花钱,Harness 管钱 | Harness = 人定的边界 |
| 曹阳 10:18 | 人定边界,agent 定路径 | 完美总结 |
4 场 talk 讲的是同一件事:"人做难的,AI 做容易的"。
Agent first 改造
"企业系统需要实现 Agent first 改造。"
| 错误做法 | 正确做法 |
|---|---|
| "在测试流程里加 Agent" | "Agent first 改造测试流程" |
| 加挂件 | 重构 |
| AI 是工具 | AI 是核心 |
七、企业上下文引擎 ⭐⭐⭐⭐
核心方法论
"企业级核心知识如何组织、激活和演化。"
3 大关键技术
| # | 技术 | 含义 |
|---|---|---|
| 1 | 实体图谱 | 知识用图结构组织(实体 + 关系) |
| 2 | 知识原子化 | 拆到最小可复用单元 |
| 3 | 记忆分层 | 短期 / 长期 / 组织 |
对硬件测试的具体落地
| 曹阳方法 | 硬件测试对应 |
|---|---|
| 实体图谱 | 项目 / 模块 / 缺陷 / 用例 关系图 |
| 知识原子化 | 4 个 SKILL 拆到最小可复用 |
| 记忆分层 | 短 = 当前任务 / 长 = 历史报告 / 组织 = SKILL 库 |
八、组织 Harness ⭐⭐⭐⭐⭐⭐
核心论断
"组织 Harness:跑通组织的 ralph loop,组织 Harness 是组织效率提升的关键。"
这一段把 Harness 从"技术层"升到了"组织层"。
3 层 Harness 完整图
| 层级 | 内容 | 关键概念 |
|---|---|---|
| 技术层 | 模型 + 状态 + 沙箱 + 评测 + MCP + 人设 | 之前讲的 |
| 上下文层 | 实体图谱 + 知识原子化 + 记忆分层 | 7. 企业上下文引擎 |
| 组织层 ⭐⭐⭐⭐⭐ | 跑通组织 ralph loop | 8. 组织 Harness |
"ralph loop" 是什么?
"Ralph loop = 跑通'反馈 → 调整 → 反馈'的循环,让组织持续迭代。"
这与昨天张刚 09:00 讲的"ralph flow"是同一脉络:
| 张刚 | 曹阳 |
|---|---|
| "ralph flow" 实现每个 story 提交 | "组织 Harness 跑通组织的 ralph loop" |
| 技术流程 | 组织流程 |
两场 talk 把"ralph"从个人/技术层升级到组织层。
九、完整 15 个金句汇总
| # | 金句 | 价值 |
|---|---|---|
| 1 | 企业任务比专家更专业 | ⭐⭐⭐⭐ |
| 2 | 千企千面 | ⭐⭐⭐⭐ |
| 3 | 可追溯/可审计/可解释性 | ⭐⭐⭐⭐⭐ |
| 4 | 资产不出公司 | ⭐⭐⭐⭐ |
| 5 | 除了模型,其他都是 Harness | ⭐⭐⭐⭐⭐ |
| 6 | Harness 6 大组成 | ⭐⭐⭐⭐ |
| 7 | 周期性清理防止熵增 | ⭐⭐⭐⭐ |
| 8 | 能力资产沉淀 = 护城河 | ⭐⭐⭐⭐⭐⭐ |
| 9 | Harness = 企业最具差异化 | ⭐⭐⭐⭐⭐⭐ |
| 10 | 3 维能力边界 | ⭐⭐⭐⭐ |
| 11 | 评测 = Harness 自迭代基础 | ⭐⭐⭐⭐⭐ |
| 12 | 人定边界,agent 定路径 | ⭐⭐⭐⭐⭐⭐ |
| 13 | Agent 自演进 = 执行反馈修正沉淀 | ⭐⭐⭐⭐⭐ |
| 14 | Agent first 改造 | ⭐⭐⭐⭐⭐ |
| 15 | 组织 Harness = 组织效率提升 | ⭐⭐⭐⭐⭐⭐ |
🔗 这 5 场 talk 的"完整知识网络"
| 讲者 | 核心金句 | 与曹阳的呼应 |
|---|---|---|
| 09:00 张刚 | 问题定义 > 方案设计 > 构建 | 曹阳 #12 人定边界 = 问题定义层 |
| 09:35 复杂系统 | 100% 测试覆盖 AI 可达成 | 曹阳 #11 评测 = 自迭代基础 |
| 09:45 复旦 | AI 擅长构建,难点 = 分析设计 | 曹阳 #12 人定边界 = 分析设计层 |
| 09:52 黄佳 | 模型花钱,Harness 管钱 | 曹阳 #5-9 Harness = 完整定义 |
| 10:18 曹阳 | 人定边界,agent 定路径 | 集大成 |
5 场 talk = 一套完整的"AI 时代开发者认知模型":
- 张刚:问题定义层
- 复旦:分析设计层
- 黄佳:基础设施层
- 复杂系统:流程层
- 曹阳:组织变革层
附录:15 个金句的"知识沉淀"价值
15 个金句的核心价值 = 把企业级 AI 方法论系统化沉淀,
可在团队内部培训 / 技术博客 / 行业分享中复用。
自我介绍 V4 改造
"我理解企业 AI 的核心是'人定边界,agent 定路径'(华为 TMG 主任曹阳 2026 提出)。过去 11 年我在华为做的工作,本质是定边界(业务理解、风险把控、合规治理);现在我推动部门硬件测试 Agent 化,是让 Agent 定路径(用例生成、缺陷定位、报告整理)。"
项目经验 V4 改造
"主导部门硬件测试 Agent 化,覆盖 4 个核心 SKILL 沉淀、Harness 6 大组成(状态/Memory/沙箱/评测/MCP/人设)、3 维能力边界(知识/系统/治理),实现 50% 效率提升。这是组织 Harness 的一次完整实践。"
🛠️ 我部门硬件测试 PPT 应该怎么改
曹阳这一场给 PPT 加了 5 个新模块:
| 加在哪里 | 加什么 |
|---|---|
| 变革一·可信环境 | 加"四性"治理(可追溯/可审计/可解释性/私有化) |
| 变革一·经验引擎 | 加"3 大技术"(实体图谱/知识原子化/记忆分层) |
| 变革一·可信用例 | 加"评测 = 自迭代基础" |
| 变革一·整体 | 加"Harness 6 大组成" 完整对应 |
| 变革三·人员转型 | 加"人定边界,agent 定路径" |
| 新增"组织 Harness" | 加第 4 块:跑通部门 ralph loop |
改完后,我的 PPT 变成"曹阳背书版" = 部长看到 = 部门方案 = 华为整体方向。
📚 推荐书 / 工具
| 资源 | 价值 |
|---|---|
| 曹阳讲到的"ralph loop" | 推荐读《组织学习》相关书 |
| 实体图谱 | 推荐学 Neo4j / FalkorDB |
| 知识原子化 | 参考 Atomic Design 模式 |
| 记忆分层 | 参考 MemGPT 论文(已学) |
📋 会议信息
| 项目 | 内容 |
|---|---|
| 讲者 | 曹阳(华为 TMG 主任) |
| 会议 | 2026 开发者大会 |
| 时间 | 2026-06-06 09:18-09:55 |
| 主题 | 企业 Agent 的演进之路 |
| 关联博客 | 张刚 talk / 复旦 talk / 黄佳 talk |
| 关联 PPT | 硬件测试范式重构(可引用本文) |
🌿 5 场 talk 听下来,最大的收获不是新概念,是*"原有概念被不同讲者反复验证"**。*这种"多源验证"的金句,才是真正能写进技术博客的"硬通货"。