Agentic AI 时代，测试的范式重构：从 1 页 PPT 到完整框架

Mr.Sun2026年6月5日...大约 10 分钟

Agentic AI 时代，测试的范式重构——未来规划

今天 22:00 写完了 1 份部门务虚会 PPT，1 页 PPT 写不下 5 大变革 + 12 个子点，索性扩写成完整博客。 这是一份实战框架——不是预测未来，而是从测试部门的现状出发，落到 0.5/1/2 年具体路径。

📌 这篇博客的特殊性

项	内容
写作契机	2026-06 部门务虚会（向高层汇报方向）
写作方式	1 页 PPT 写不完 → 扩写成完整框架
真实性	4 个 SKILL 已在部门沉淀、C9x 类试点项目已选好
作用	一份对外可发表的部门范式重构思考

这一篇不是论文，是实战手记。每一条都是"我们部门打算怎么干"。

一、背景与趋势：Agentic AI 正在重塑测试的底层逻辑

🔥 AI 能力跃迁

从辅助编码到自主决策，AI 正从"工具"演变为"测试智能体"，能自主完成环境搭建、用例生成、结果评判的闭环。

⚠️ 测试对象剧变

产品复杂度指数级增长，多场景组合爆炸，靠人力堆叠策略已无法满足市场对上市周期的要求。

🚧 当前测试的四大瓶颈

#	瓶颈	表现	根因
1	经验孤岛	专家知识封存在个人脑中，项目结束即流失	知识未沉淀到系统
2	知识不流动	用例设计、风险分析、报告评审高度依赖少数 TSE	团队效能天花板低
3	成果难量化	测试质量依赖个体责任心	缺乏系统化可信度评价
4	人力密集低效	大量时间消耗在环境搭建、数据准备、报告整理	重复劳动没自动化

核心判断：

Agentic AI 不是提效工具，而是重构测试体系、从根本上突破上述瓶颈的"范式重构"契机。

💡 这与今天 09:00 听到的英慕科技张刚金句完全呼应

张刚说："软件开发的核心是发现和探索，问题定义 > 方案设计 > 软件构建。"
我在测试领域里发现，测试的瓶颈不在"构建"（执行），而在"问题定义"和"经验设计"。
也就是说，AI 时代最值钱的不是"测得快"，是"测得聪明"。

二、转型目标：构建"Agent 驱动、知识引擎支撑、数据飞轮加速"的新体系

📅 三个时间维度

阶段	时间	目标	关键产出
短期	6 个月	完成关键场景验证，建立测试 Agent 基础能力	4 个 SKILL + 1-2 个试点项目
中期	1-2 年	Agent 与专家高效协作的混合模式	核心业务测试效率提升 50%+
长期愿景	3+ 年	自学习、自进化的测试智能体集群	经验可持续沉淀 + 质量可信可控 + 交付周期缩短 30-50%

🎯 三个核心引擎

┌─────────────────────────────────────────┐
│  Agent 驱动   知识引擎支撑   数据飞轮加速 │
│  (执行核心)   (沉淀复盘)    (持续进化)  │
└─────────────────────────────────────────┘

这三个引擎彼此互锁**——Agent 产生数据，数据反哺知识，知识驱动 Agent。**

三、核心变革：框架、流程与人才的全面进化

🛠 变革一：测试框架——从"脚本执行"到"智能体自治"

从"手写脚本"升级为"智能体自治"，让 Agent 自主完成环境、用例、评测的闭环。

1. 可信环境

构筑 Agent 专用可信测试区域：基于物理硬件在环的隔离沙箱
配合边界围栏，防止测试复杂异常场景爆炸扩散
让 Agent 大胆探索但绝不"炸毁"真实业务

类比：自动驾驶有"沙箱模式"，测试 Agent 也必须有。

2. 服务化能力

测试仪器、用例执行、测试服务封装为 语义化测试 MCP 接口
供 Agent 动态发现与编排调用
实现测试能力的标准化与即插即用

这就是张刚说的"问题定义"和"方案设计"被封装成可复用接口。

3. 可信用例 & 自信度评测

基于前端风险数据流转与测试设计分析 Skill，生成带置信度的精准用例推荐
建立测试 Agent 专属评测集，持续量化模型能力边界
用例生成有"靠谱度"标签，决策有数据支撑

关键：不是"AI 生成的用例"，而是"AI 生成的 + 95% 置信度的用例"。

4. 测试数据飞轮

生成 → 执行 → 评判 → 进化
  ↑__________________________|

建立测试数据集生产线
引入 Agent Judge 自动评估用例质量与覆盖
形成"生成 → 执行 → 评判 → 进化"的数据飞轮
这是系统自我进化的引擎

5. 经验提取 & 知识引擎

从专家经验 + 运行数据中提炼经验
注入测试私有 RAG 知识库 + 工程知识引擎
彻底解决"经验孤岛"问题

我们部门已经沉淀 4 个测试 SKILL（C9x 等），这就是知识引擎的"种子"。

🔄 变革二：测试流程——从"阶段式交付"到"持续自适应探索"

从"瀑布式"变成"持续探索"，流程本身具备"自我感知"和"自主决策"能力。

1. AI Native 测试架构

构建 测试 Harness，以 Agent 为执行核心
通过语义化 MCP 接口连接环境与工具
形成 AI 原生的调度、监控与反馈闭环
在 Harness 内嵌 Agent Judge，实现测试过程的实时质量评判

这与今天 09:52 黄佳说的"模型 = 花钱，Harness = 管理钱"完全对应。
Harness 在测试领域 = 调度、监控、反馈、容错的中央枢纽。

2. 渐进式披露

按照测试流的实际进展，渐进式加载所需 Skill 与 MCP Tool：在测试设计阶段激活风险分析、用例生成 Skill；执行阶段开放仪器控制、数据采集 Tool；分析阶段授权结果比对、报告生成 Skill。做到"当前步骤需要什么，才动态授予什么"，既避免信息过载，又满足安全最小权限原则

这是测试场景下的"零信任架构"。

3. 安全的评测

物理操作边界围栏 + Agent 专用可信测试环境双层防护
杜绝越权与异常扩散
将物理风险控制在安全沙箱内

4. 可信监控 & 知识回流

实时仪表盘展示覆盖与结果可信度
异常与经验自动入库
飞轮数据回流驱动知识引擎持续进化
测试过程全透明，知识自动沉淀

👥 变革三：人员能力——从"管理执行"到"驾驭智能体"

最关键的变革：人的角色从"执行者"升级为"训练者 + 治理者"。

1. 测试经理 → AI 测试运营经理

管理 Agent 集群与混合团队
把控数据飞轮质量与评测集建设
聚焦资源编排与信任校准
从管事到管"人机混合编队"

2. TSE（系统/硬件/性能）→ AI 测试架构师

设计 AI Native 测试 Harness、语义化 MCP 接口及 Agent Judge 评判规则
将策略转化为目标、安全规则与评测标准
运营领域 RAG 知识库
从自己设计到教会 Agent 设计

3. TE → AI 训练师 / 测试教练

从搭环境、执行用例转变为反馈标注、构建评测集、异常复核
主导数据集生产线的数据治理
持续喂养高质量经验到知识引擎
从执行者变为 AI 的教练与数据管家

4. 测试工具开发人员 → AI 基础设施工程师

从传统 代码编写与工具维护 转型为 AI Infra 构建者
为上层测试 Agent 和 Harness 提供 稳定、高效的底层服务支撑，包括算力调度、数据管道、模型部署与监控等基础设施保障
从"造工具"变为"建平台"，让智能体运行在坚实可靠的基座之上

💡 人员转型路径

当前角色              →  AI 时代角色
──────────────────────────────────────
测试经理              →  AI 测试运营经理
TSE                   →  AI 测试架构师
TE（骨干）            →  AI 训练师
TE（一般）            →  业务专家 / 内部转岗
测试工具开发人员      →  AI 基础设施工程师

这与今天 09:45 复旦 codewisdom 副院长说的"AI 擅长构建，难点是分析和设计"对应——
人的价值在"问题定义"和"评测标准制定"，这是 AI 还做不好的。

四、预期收益与实施路径

📈 收益量化

维度	当前	目标	提升
效率	测试设计/执行/报告耗时	50%+ 提升	⭐⭐⭐⭐⭐
质量	关键缺陷逃逸率	-30%	⭐⭐⭐⭐
经验资产化	知识复用率	+80%	⭐⭐⭐⭐⭐
交付周期	当前	缩短 30-50%	⭐⭐⭐⭐⭐

🛣 分步实施建议

阶段	时间	关键动作
试点期	3 个月	选 1-2 个 C9x 类低复杂度项目，搭建可信环境与基础 MCP 接口，跑通"用例生成-执行-评判"最小闭环
扩展期	6-12 个月	建立测试数据集生产线与 RAG 知识库，Agent 辅助设计成为标准动作
普及期	12+ 个月	全场景覆盖，形成自进化的数据飞轮，人员完成角色转型

🙏 需要的支持

批准在试点项目中投入资源，构建 Agent 专用可信测试环境
同意选拔 2-3 名骨干，作为首批 AI 测试架构师和训练师重点培养
将本规划纳入部门年度技术规划，确保持续性投入

🎯 核心结论

Agentic AI 时代，测试的范式重构不是可选项，而是必答题。

维度	过去	未来
驱动	人力驱动	Agent 驱动
流程	线性阶段式	持续自适应
经验	封存于个体	沉淀于知识引擎
评判	人工 review	Agent Judge 持续评判与进化
接口	散乱工具	语义化 MCP 接口互联
人	执行 + 报告	决策 + 治理

最终收益：测试效率倍增、经验持续沉淀、质量可信可控。

💎 反思：从 1 页 PPT 到完整框架，我学到了什么

1. 会议金句的"二次激活"

今天听的所有 talk，在写这份 PPT 时全部派上用场：

Talk	PPT 引用
09:00 张刚"问题定义 > 方案设计 > 构建"	测试瓶颈在"问题定义和经验设计"
09:45 复旦"AI 擅长构建，难点是分析和设计"	人的价值在"评测标准制定"
09:52 黄佳"模型花钱，Harness 管钱"	测试 Harness 是核心调度枢纽
张刚推荐 grill-me skill	经验抽取 = AI 提问 TSE 沉淀 SKILL

这就是"知识网络"的威力——单点听是知识，串起来是框架。

2. 1 页 PPT 写不下的内容，反而是博客最佳素材

如果你 1 页能讲完，那只是洞察。
如果你 1 页写不下，那是体系。

这份 PPT 扩写成博客，对外树立人设 + 对内指导工作，一鱼两吃。

3. 真实案例 > 任何理论

我引用了：

4 个已沉淀的 SKILL（C9x 等）
1-2 个试点项目
50%+ / 30-50% 等可量化目标

**"我们部门已经在做"**比"未来我们要做"说服力强 10 倍。

📋 这份 PPT 的"硬通货"价值

用途	价值
部门务虚会汇报	⭐⭐⭐⭐⭐ 直接用
对外博客发表	⭐⭐⭐⭐⭐ 树立"AI 测试专家"人设
部门汇报核心素材	⭐⭐⭐⭐⭐ 主导部门范式重构
方法论提炼样本	⭐⭐⭐⭐⭐ STAR 框架（Situation/Task/Action/Result）
AgentScope V2 PR 文档	⭐⭐⭐⭐ 可作为 RAG 内容

📋 会议与写作信息

项目	内容
写作契机	2026-06 部门务虚会（未来规划方向）
写作时间	2026-06-05 22:00-22:40
写作方式	1 页 PPT → 完整博客
引用金句	张刚 / 复旦 / 黄佳 3 场 talk
关联博客	/ai-practice/ai-app/harness-engineer-mindset/
关联博客	/posts/ai-practice/2026-conf-zhanggang-software-is-exploration/

🌿 范式重构不是"我会不会变"，是"我要不要领先变"。Agentic AI 时代，抢先定义规则比遵守规则**重要 100 倍。

贡献者

Sun Rong