华为 TMG 主任曹阳：企业 Agent 的演进之路（15 个金句 + 完整框架）

Mr.Sun2026年6月6日...大约 10 分钟

华为 TMG 主任曹阳：企业 Agent 的演进之路（15 个金句 + 完整框架）

6-6 上午 09:18 听了华为 TMG 主任曹阳的"企业 Agent 演进之路"。 这是同公司的官方视角，对我部门硬件测试 Agent 化是直接背书。15 个金句全部能写进 PPT 引用部分。

📌 这篇博客的特殊性

项	内容
讲者	曹阳（华为 TMG 主任）
会议	2026 开发者大会
时间	2026-06-06 09:18-09:55
主题	企业 Agent 的演进之路
特殊性	同公司视角 = 部门 PPT 可直接引用
作用	给我部门硬件测试 Agent 化官方背书

关键洞察：这一场 talk 不是"听新东西"，是"给我们的方向盖一个华为的章"。

一、企业级 AI vs 消费级 AI 的本质区别 ⭐⭐⭐⭐⭐

曹阳开场就划清了企业级 AI 的 4 个本质区别：

1. 企业任务比专家更专业

"企业任务非常复杂，涉及专业知识、组织流程、特定行业专业问题。比专家更专业。"

含义：

消费级 AI：通用对话，能"还行"
企业级 AI：必须超越人类专家才有价值

对测试的启示：

"我们的测试 Agent 必须比 11 年 TSE 更懂硬件测试，否则无价值。"

2. 千企千面

"适配定制，千企千面。"

含义：

没有"通用企业 Agent"
每个企业必须深度定制

对测试的启示：

"我们部门的 4 个 SKILL = 定制化的起点。我们不和别的企业共用。"

3. 可追溯 / 可审计 / 可解释性

"群体责任，关于企业命脉，需要可追溯、可审计、可解释性。"

含义：

消费级 AI 出错 = 用户骂
企业级 AI 出错 = 法律责任

对测试的启示：

"测试 Agent 必须留下决策证据链——为什么这个用例、为什么这个 pass/fail 判定。"

4. 资产不出公司

"核心资产保护，资产不出公司。"

含义：

数据 = 企业命脉
不能用消费级 API 跑企业数据

对测试的启示：

"我们的测试数据、4 个 SKILL、RAG 知识库 = 全部私有部署。"

二、Harness 工程完整定义 ⭐⭐⭐⭐⭐⭐

核心定义

"除了模型，其他都是 Harness。"

一句话定义 Harness = 模型之外的所有基础设施。

6 大组成

#	组成	作用
1	状态持久化	让 Agent 不丢上下文
2	Memory	长期记忆 + 经验
3	沙箱	隔离 + 防"炸"
4	验证与护栏	防止越权 + 异常
5	模型	LLM 推理
6	指令与人设	Agent 角色定义
7	工具扩展	MCP 接口

周期性清理防止熵增

"周期性清理防止熵增。"

含义：

Agent 跑久了，状态会"乱"
必须定期清理 + 回顾
防止错误累积

对测试的启示：

"测试 Harness 必须有'熵增治理'机制——定期清理过期用例、回顾失败 Agent 决策、迭代 SKILL 库。"

与黄佳 09:52 talk 的呼应

黄佳	曹阳
"模型花钱，Harness 管钱"	"除了模型，其他都是 Harness"
概念级别	架构级别

两场 talk 完整闭环。

三、3 维能力边界 ⭐⭐⭐⭐

曹阳把"企业 Agent 能力"分成 3 维：

1. 知识连接 = 判断力

"判断力的来源——Skill 和知识库，提供经验、知识等面向任务的上下文。"

来源：Skill + 知识库
比喻：军师的脑子

2. 系统连接 = 行动力

"行动力来源——通过 Skill/MCP 服务，提供业务系统连接。"

来源：Skill/MCP + 业务系统
比喻：战士的手脚

3. 安全审计 = 治理力

"安全和审计——权限、数据隔离。"

来源：权限 + 数据隔离
比喻：军队的纪律

3 维 × 对应硬件测试 PPT

曹阳 3 维	硬件测试 PPT 对应
知识连接（判断力）	变革一·经验提取 & 知识引擎
系统连接（行动力）	变革一·服务化能力（MCP）
安全审计（治理力）	变革一·可信环境 + "四性" 治理

3 维 × 3 个对应点 = 完美对位。

四、能力沉淀 = 护城河 ⭐⭐⭐⭐⭐⭐

核心论断

"核心不是实现能力，而是能力资产沉淀，让资产越用越厚，成为护城河。"

这是一个范式转变：

旧认知	新认知（曹阳）
谁能用 AI 写出功能 = 强	谁能沉淀可复用能力资产 = 强
代码多 = 强	SKILL 多 + 飞轮快 = 强
工具多 = 强	资产护城河 = 强

6 大能力资产组成

#	资产	含义
1	Skill	沉淀领域知识 + 业务流包 + 数据读写
2	MCP	工具能力 + 系统对接
3	记忆（飞轮）	长期经验 + 反馈
4	人设角色	Agent 角色定义
5	评测 Eval	质量度量 + 迭代依据
6	安全审计护栏	治理 + 合规

金句

"Harness 是企业最具差异化的核心能力。" ⭐⭐⭐⭐⭐

这意味着：

任何企业都能买到同样的模型
但 Harness 是企业独有的护城河
谁先沉淀，谁就领先

对我部门硬件测试的意义

我们 4 个 SKILL 沉淀 = 护城河的种子。别人要复制，至少要 1-2 年。

五、评测 = Harness 自迭代基础 ⭐⭐⭐⭐⭐

核心论断

"评测是 Harness 自迭代的基础，需要构建评测集。"

含义：

评测不是为了"通过"
评测是为了"让 Harness 越用越强"

评测的 3 个层级

层级	作用	时间维度
短期	监控 Agent 质量	当前项目
中期	识别 Agent 弱项	跨项目
长期	驱动 Harness 自我进化	跨年

Agent 自演进机制

"把每一次执行后的轨迹、反馈和修正，进行沉淀。"

执行 → 反馈 → 修正 → 沉淀
  ↑__________________________↓

这就是"测试数据飞轮"的具体机制！

六、"人定边界，agent 定路径" ⭐⭐⭐⭐⭐⭐

核心论断

"人定边界，agent 定路径。"

这是我听过的最精炼的"人机分工"金句。

角色	职责
人	定边界（规则、安全、范围、合规）
Agent	定路径（具体怎么实现）

与之前 4 场 talk 的呼应

讲者	金句	与"人定边界"的关系
张刚 09:00	问题定义 > 方案设计 > 构建	人 = 问题定义
复旦 09:45	AI 擅长构建，难点 = 分析设计	人 = 分析设计
黄佳 09:52	模型花钱，Harness 管钱	Harness = 人定的边界
曹阳 10:18	人定边界，agent 定路径	完美总结

4 场 talk 讲的是同一件事："人做难的，AI 做容易的"。

Agent first 改造

"企业系统需要实现 Agent first 改造。"

错误做法	正确做法
"在测试流程里加 Agent"	"Agent first 改造测试流程"
加挂件	重构
AI 是工具	AI 是核心

七、企业上下文引擎 ⭐⭐⭐⭐

核心方法论

"企业级核心知识如何组织、激活和演化。"

3 大关键技术

#	技术	含义
1	实体图谱	知识用图结构组织（实体 + 关系）
2	知识原子化	拆到最小可复用单元
3	记忆分层	短期 / 长期 / 组织

对硬件测试的具体落地

曹阳方法	硬件测试对应
实体图谱	项目 / 模块 / 缺陷 / 用例关系图
知识原子化	4 个 SKILL 拆到最小可复用
记忆分层	短 = 当前任务 / 长 = 历史报告 / 组织 = SKILL 库

八、组织 Harness ⭐⭐⭐⭐⭐⭐

核心论断

"组织 Harness：跑通组织的 ralph loop，组织 Harness 是组织效率提升的关键。"

这一段把 Harness 从"技术层"升到了"组织层"。

3 层 Harness 完整图

层级	内容	关键概念
技术层	模型 + 状态 + 沙箱 + 评测 + MCP + 人设	之前讲的
上下文层	实体图谱 + 知识原子化 + 记忆分层	7. 企业上下文引擎
组织层 ⭐⭐⭐⭐⭐	跑通组织 ralph loop	8. 组织 Harness

"ralph loop" 是什么？

"Ralph loop = 跑通'反馈 → 调整 → 反馈'的循环，让组织持续迭代。"

这与昨天张刚 09:00 讲的"ralph flow"是同一脉络：

张刚	曹阳
"ralph flow" 实现每个 story 提交	"组织 Harness 跑通组织的 ralph loop"
技术流程	组织流程

两场 talk 把"ralph"从个人/技术层升级到组织层。

九、完整 15 个金句汇总

#	金句	价值
1	企业任务比专家更专业	⭐⭐⭐⭐
2	千企千面	⭐⭐⭐⭐
3	可追溯/可审计/可解释性	⭐⭐⭐⭐⭐
4	资产不出公司	⭐⭐⭐⭐
5	除了模型，其他都是 Harness	⭐⭐⭐⭐⭐
6	Harness 6 大组成	⭐⭐⭐⭐
7	周期性清理防止熵增	⭐⭐⭐⭐
8	能力资产沉淀 = 护城河	⭐⭐⭐⭐⭐⭐
9	Harness = 企业最具差异化	⭐⭐⭐⭐⭐⭐
10	3 维能力边界	⭐⭐⭐⭐
11	评测 = Harness 自迭代基础	⭐⭐⭐⭐⭐
12	人定边界，agent 定路径	⭐⭐⭐⭐⭐⭐
13	Agent 自演进 = 执行反馈修正沉淀	⭐⭐⭐⭐⭐
14	Agent first 改造	⭐⭐⭐⭐⭐
15	组织 Harness = 组织效率提升	⭐⭐⭐⭐⭐⭐

🔗 这 5 场 talk 的"完整知识网络"

讲者	核心金句	与曹阳的呼应
09:00 张刚	问题定义 > 方案设计 > 构建	曹阳 #12 人定边界 = 问题定义层
09:35 复杂系统	100% 测试覆盖 AI 可达成	曹阳 #11 评测 = 自迭代基础
09:45 复旦	AI 擅长构建，难点 = 分析设计	曹阳 #12 人定边界 = 分析设计层
09:52 黄佳	模型花钱，Harness 管钱	曹阳 #5-9 Harness = 完整定义
10:18 曹阳	人定边界，agent 定路径	集大成

5 场 talk = 一套完整的"AI 时代开发者认知模型"：

张刚：问题定义层
复旦：分析设计层
黄佳：基础设施层
复杂系统：流程层
曹阳：组织变革层

附录：15 个金句的"知识沉淀"价值

15 个金句的核心价值 = 把企业级 AI 方法论系统化沉淀，
可在团队内部培训 / 技术博客 / 行业分享中复用。

自我介绍 V4 改造

"我理解企业 AI 的核心是'人定边界，agent 定路径'（华为 TMG 主任曹阳 2026 提出）。过去 11 年我在华为做的工作，本质是定边界（业务理解、风险把控、合规治理）；现在我推动部门硬件测试 Agent 化，是让 Agent 定路径（用例生成、缺陷定位、报告整理）。"

项目经验 V4 改造

"主导部门硬件测试 Agent 化，覆盖 4 个核心 SKILL 沉淀、Harness 6 大组成（状态/Memory/沙箱/评测/MCP/人设）、3 维能力边界（知识/系统/治理），实现 50% 效率提升。这是组织 Harness 的一次完整实践。"

🛠️ 我部门硬件测试 PPT 应该怎么改

曹阳这一场给 PPT 加了 5 个新模块：

加在哪里	加什么
变革一·可信环境	加"四性"治理（可追溯/可审计/可解释性/私有化）
变革一·经验引擎	加"3 大技术"（实体图谱/知识原子化/记忆分层）
变革一·可信用例	加"评测 = 自迭代基础"
变革一·整体	加"Harness 6 大组成" 完整对应
变革三·人员转型	加"人定边界，agent 定路径"
新增"组织 Harness"	加第 4 块：跑通部门 ralph loop

改完后，我的 PPT 变成"曹阳背书版" = 部长看到 = 部门方案 = 华为整体方向。

📚 推荐书 / 工具

资源	价值
曹阳讲到的"ralph loop"	推荐读《组织学习》相关书
实体图谱	推荐学 Neo4j / FalkorDB
知识原子化	参考 Atomic Design 模式
记忆分层	参考 MemGPT 论文（已学）

📋 会议信息

项目	内容
讲者	曹阳（华为 TMG 主任）
会议	2026 开发者大会
时间	2026-06-06 09:18-09:55
主题	企业 Agent 的演进之路
关联博客	张刚 talk / 复旦 talk / 黄佳 talk
关联 PPT	硬件测试范式重构（可引用本文）

🌿 5 场 talk 听下来，最大的收获不是新概念，是*"原有概念被不同讲者反复验证"**。*这种"多源验证"的金句，才是真正能写进技术博客的"硬通货"。

贡献者

Sun Rong