Agentic AI 时代,测试的范式重构:从 1 页 PPT 到完整框架
Agentic AI 时代,测试的范式重构——未来规划
今天 22:00 写完了 1 份部门务虚会 PPT,1 页 PPT 写不下 5 大变革 + 12 个子点,索性扩写成完整博客。 这是一份实战框架——不是预测未来,而是从测试部门的现状出发,落到 0.5/1/2 年具体路径。
📌 这篇博客的特殊性
| 项 | 内容 |
|---|---|
| 写作契机 | 2026-06 部门务虚会(向高层汇报方向) |
| 写作方式 | 1 页 PPT 写不完 → 扩写成完整框架 |
| 真实性 | 4 个 SKILL 已在部门沉淀、C9x 类试点项目已选好 |
| 作用 | 一份对外可发表的部门范式重构思考 |
这一篇不是论文,是实战手记。每一条都是"我们部门打算怎么干"。
一、背景与趋势:Agentic AI 正在重塑测试的底层逻辑
🔥 AI 能力跃迁
从辅助编码到自主决策,AI 正从"工具"演变为"测试智能体",能自主完成环境搭建、用例生成、结果评判的闭环。
⚠️ 测试对象剧变
产品复杂度指数级增长,多场景组合爆炸,靠人力堆叠策略已无法满足市场对上市周期的要求。
🚧 当前测试的四大瓶颈
| # | 瓶颈 | 表现 | 根因 |
|---|---|---|---|
| 1 | 经验孤岛 | 专家知识封存在个人脑中,项目结束即流失 | 知识未沉淀到系统 |
| 2 | 知识不流动 | 用例设计、风险分析、报告评审高度依赖少数 TSE | 团队效能天花板低 |
| 3 | 成果难量化 | 测试质量依赖个体责任心 | 缺乏系统化可信度评价 |
| 4 | 人力密集低效 | 大量时间消耗在环境搭建、数据准备、报告整理 | 重复劳动没自动化 |
核心判断:
Agentic AI 不是提效工具,而是重构测试体系、从根本上突破上述瓶颈的"范式重构"契机。
💡 这与今天 09:00 听到的英慕科技张刚金句完全呼应
张刚说:"软件开发的核心是发现和探索,问题定义 > 方案设计 > 软件构建。"
我在测试领域里发现,测试的瓶颈不在"构建"(执行),而在"问题定义"和"经验设计"。
也就是说,AI 时代最值钱的不是"测得快",是"测得聪明"。
二、转型目标:构建"Agent 驱动、知识引擎支撑、数据飞轮加速"的新体系
📅 三个时间维度
| 阶段 | 时间 | 目标 | 关键产出 |
|---|---|---|---|
| 短期 | 6 个月 | 完成关键场景验证,建立测试 Agent 基础能力 | 4 个 SKILL + 1-2 个试点项目 |
| 中期 | 1-2 年 | Agent 与专家高效协作的混合模式 | 核心业务测试效率提升 50%+ |
| 长期愿景 | 3+ 年 | 自学习、自进化的测试智能体集群 | 经验可持续沉淀 + 质量可信可控 + 交付周期缩短 30-50% |
🎯 三个核心引擎
┌─────────────────────────────────────────┐
│ Agent 驱动 知识引擎支撑 数据飞轮加速 │
│ (执行核心) (沉淀复盘) (持续进化) │
└─────────────────────────────────────────┘这三个引擎彼此互锁**——Agent 产生数据,数据反哺知识,知识驱动 Agent。**
三、核心变革:框架、流程与人才的全面进化
🛠 变革一:测试框架——从"脚本执行"到"智能体自治"
从"手写脚本"升级为"智能体自治",让 Agent 自主完成环境、用例、评测的闭环。
1. 可信环境
- 构筑 Agent 专用可信测试区域:基于物理硬件在环的隔离沙箱
- 配合边界围栏,防止测试复杂异常场景爆炸扩散
- 让 Agent 大胆探索但绝不"炸毁"真实业务
类比:自动驾驶有"沙箱模式",测试 Agent 也必须有。
2. 服务化能力
- 测试仪器、用例执行、测试服务封装为 语义化测试 MCP 接口
- 供 Agent 动态发现与编排调用
- 实现测试能力的标准化与即插即用
这就是张刚说的"问题定义"和"方案设计"被封装成可复用接口。
3. 可信用例 & 自信度评测
- 基于前端风险数据流转与测试设计分析 Skill,生成带置信度的精准用例推荐
- 建立测试 Agent 专属评测集,持续量化模型能力边界
- 用例生成有"靠谱度"标签,决策有数据支撑
关键:不是"AI 生成的用例",而是"AI 生成的 + 95% 置信度的用例"。
4. 测试数据飞轮
生成 → 执行 → 评判 → 进化
↑__________________________|- 建立测试数据集生产线
- 引入 Agent Judge 自动评估用例质量与覆盖
- 形成"生成 → 执行 → 评判 → 进化"的数据飞轮
- 这是系统自我进化的引擎
5. 经验提取 & 知识引擎
- 从专家经验 + 运行数据中提炼经验
- 注入测试私有 RAG 知识库 + 工程知识引擎
- 彻底解决"经验孤岛"问题
我们部门已经沉淀 4 个测试 SKILL(C9x 等),这就是知识引擎的"种子"。
🔄 变革二:测试流程——从"阶段式交付"到"持续自适应探索"
从"瀑布式"变成"持续探索",流程本身具备"自我感知"和"自主决策"能力。
1. AI Native 测试架构
- 构建 测试 Harness,以 Agent 为执行核心
- 通过语义化 MCP 接口连接环境与工具
- 形成 AI 原生的调度、监控与反馈闭环
- 在 Harness 内嵌 Agent Judge,实现测试过程的实时质量评判
这与今天 09:52 黄佳说的"模型 = 花钱,Harness = 管理钱"完全对应。
Harness 在测试领域 = 调度、监控、反馈、容错的中央枢纽。
2. 渐进式披露
- 按照测试流的实际进展,渐进式加载所需 Skill 与 MCP Tool:在测试设计阶段激活风险分析、用例生成 Skill;执行阶段开放仪器控制、数据采集 Tool;分析阶段授权结果比对、报告生成 Skill。做到"当前步骤需要什么,才动态授予什么",既避免信息过载,又满足安全最小权限原则
这是测试场景下的"零信任架构"。
3. 安全的评测
- 物理操作边界围栏 + Agent 专用可信测试环境双层防护
- 杜绝越权与异常扩散
- 将物理风险控制在安全沙箱内
4. 可信监控 & 知识回流
- 实时仪表盘展示覆盖与结果可信度
- 异常与经验自动入库
- 飞轮数据回流驱动知识引擎持续进化
- 测试过程全透明,知识自动沉淀
👥 变革三:人员能力——从"管理执行"到"驾驭智能体"
最关键的变革:人的角色从"执行者"升级为"训练者 + 治理者"。
1. 测试经理 → AI 测试运营经理
- 管理 Agent 集群与混合团队
- 把控数据飞轮质量与评测集建设
- 聚焦资源编排与信任校准
- 从管事到管"人机混合编队"
2. TSE(系统/硬件/性能)→ AI 测试架构师
- 设计 AI Native 测试 Harness、语义化 MCP 接口及 Agent Judge 评判规则
- 将策略转化为目标、安全规则与评测标准
- 运营领域 RAG 知识库
- 从自己设计到教会 Agent 设计
3. TE → AI 训练师 / 测试教练
- 从搭环境、执行用例转变为反馈标注、构建评测集、异常复核
- 主导数据集生产线的数据治理
- 持续喂养高质量经验到知识引擎
- 从执行者变为 AI 的教练与数据管家
4. 测试工具开发人员 → AI 基础设施工程师
- 从传统 代码编写与工具维护 转型为 AI Infra 构建者
- 为上层测试 Agent 和 Harness 提供 稳定、高效的底层服务支撑,包括算力调度、数据管道、模型部署与监控等基础设施保障
- 从"造工具"变为"建平台",让智能体运行在坚实可靠的基座之上
💡 人员转型路径
当前角色 → AI 时代角色
──────────────────────────────────────
测试经理 → AI 测试运营经理
TSE → AI 测试架构师
TE(骨干) → AI 训练师
TE(一般) → 业务专家 / 内部转岗
测试工具开发人员 → AI 基础设施工程师这与今天 09:45 复旦 codewisdom 副院长说的"AI 擅长构建,难点是分析和设计"对应——
人的价值在"问题定义"和"评测标准制定",这是 AI 还做不好的。
四、预期收益与实施路径
📈 收益量化
| 维度 | 当前 | 目标 | 提升 |
|---|---|---|---|
| 效率 | 测试设计/执行/报告耗时 | 50%+ 提升 | ⭐⭐⭐⭐⭐ |
| 质量 | 关键缺陷逃逸率 | -30% | ⭐⭐⭐⭐ |
| 经验资产化 | 知识复用率 | +80% | ⭐⭐⭐⭐⭐ |
| 交付周期 | 当前 | 缩短 30-50% | ⭐⭐⭐⭐⭐ |
🛣 分步实施建议
| 阶段 | 时间 | 关键动作 |
|---|---|---|
| 试点期 | 3 个月 | 选 1-2 个 C9x 类低复杂度项目,搭建可信环境与基础 MCP 接口,跑通"用例生成-执行-评判"最小闭环 |
| 扩展期 | 6-12 个月 | 建立测试数据集生产线与 RAG 知识库,Agent 辅助设计成为标准动作 |
| 普及期 | 12+ 个月 | 全场景覆盖,形成自进化的数据飞轮,人员完成角色转型 |
🙏 需要的支持
- 批准在试点项目中投入资源,构建 Agent 专用可信测试环境
- 同意选拔 2-3 名骨干,作为首批 AI 测试架构师和训练师重点培养
- 将本规划纳入部门年度技术规划,确保持续性投入
🎯 核心结论
Agentic AI 时代,测试的范式重构不是可选项,而是必答题。
| 维度 | 过去 | 未来 |
|---|---|---|
| 驱动 | 人力驱动 | Agent 驱动 |
| 流程 | 线性阶段式 | 持续自适应 |
| 经验 | 封存于个体 | 沉淀于知识引擎 |
| 评判 | 人工 review | Agent Judge 持续评判与进化 |
| 接口 | 散乱工具 | 语义化 MCP 接口互联 |
| 人 | 执行 + 报告 | 决策 + 治理 |
最终收益:测试效率倍增、经验持续沉淀、质量可信可控。
💎 反思:从 1 页 PPT 到完整框架,我学到了什么
1. 会议金句的"二次激活"
今天听的所有 talk,在写这份 PPT 时全部派上用场:
| Talk | PPT 引用 |
|---|---|
| 09:00 张刚"问题定义 > 方案设计 > 构建" | 测试瓶颈在"问题定义和经验设计" |
| 09:45 复旦"AI 擅长构建,难点是分析和设计" | 人的价值在"评测标准制定" |
| 09:52 黄佳"模型花钱,Harness 管钱" | 测试 Harness 是核心调度枢纽 |
| 张刚推荐 grill-me skill | 经验抽取 = AI 提问 TSE 沉淀 SKILL |
这就是"知识网络"的威力——单点听是知识,串起来是框架。
2. 1 页 PPT 写不下的内容,反而是博客最佳素材
如果你 1 页能讲完,那只是洞察。
如果你 1 页写不下,那是体系。
这份 PPT 扩写成博客,对外树立人设 + 对内指导工作,一鱼两吃。
3. 真实案例 > 任何理论
我引用了:
- 4 个已沉淀的 SKILL(C9x 等)
- 1-2 个试点项目
- 50%+ / 30-50% 等可量化目标
**"我们部门已经在做"**比"未来我们要做"说服力强 10 倍。
📋 这份 PPT 的"硬通货"价值
| 用途 | 价值 |
|---|---|
| 部门务虚会汇报 | ⭐⭐⭐⭐⭐ 直接用 |
| 对外博客发表 | ⭐⭐⭐⭐⭐ 树立"AI 测试专家"人设 |
| 部门汇报核心素材 | ⭐⭐⭐⭐⭐ 主导部门范式重构 |
| 方法论提炼样本 | ⭐⭐⭐⭐⭐ STAR 框架(Situation/Task/Action/Result) |
| AgentScope V2 PR 文档 | ⭐⭐⭐⭐ 可作为 RAG 内容 |
📋 会议与写作信息
| 项目 | 内容 |
|---|---|
| 写作契机 | 2026-06 部门务虚会(未来规划方向) |
| 写作时间 | 2026-06-05 22:00-22:40 |
| 写作方式 | 1 页 PPT → 完整博客 |
| 引用金句 | 张刚 / 复旦 / 黄佳 3 场 talk |
| 关联博客 | /ai-practice/ai-app/harness-engineer-mindset/ |
| 关联博客 | /posts/ai-practice/2026-conf-zhanggang-software-is-exploration/ |
🌿 范式重构不是"我会不会变",是"我要不要领先变"。Agentic AI 时代,抢先定义规则比遵守规则**重要 100 倍。