AI Native 工程师转型:Harness 思维、Karpathy 模式完整指南
AI Native 工程师转型:Harness 思维、Karpathy 模式完整指南
会议:Agentic AICon 2026 智能体应用与架构工程大会
演讲:AI Native 工程师的角色重塑(Day1 终极篇)
记录人:Mr.Sun(11年华为测试架构师 / 2026.04 晋升团队负责人)
本文:把 Day1 7 场演讲的核心洞察,浓缩成一份AI 时代工程师的完整转型指南
📌 写在前面
昨天 Day1 听完了 7 场演讲,最让我震撼的不是某个具体技术点,而是贯穿所有演讲的 3 个核心信号:
- AI 是钢铁侠外衣,不是无人驾驶——人不会被替代,但必须进化
- 风口从 Agent 搬到 Harness——编排层是新蓝海
- 每一条都是 Harness——数据飞轮 + 记忆上下文 + 行动能力
这 3 个信号合起来 = "AI Native 工程师"这个新身份。
本文是 Day1 7 场演讲的实战篇——讲怎么把"知识"变成"行动",把"演讲"变成"简历"。
一、核心认知:AI 是钢铁侠外衣
1.1 两个比喻的对比
❌ 无人驾驶比喻(错误):
AI = 自主驾驶
人 = 睡觉
→ 完全替代人
✅ 钢铁侠外衣比喻(正确):
AI = 增强外衣
人 = 钢铁侠本人
→ AI 增强人,人还是核心这个比喻的深刻之处:
- 钢铁侠没了外衣还是托尼·斯塔克(核心能力不变)
- 外衣让托尼的能力放大 10x
- 人 + AI = 放大 10x 的人
1.2 对中年工程师的意义
"Agent 打破了 35 岁魔咒"
传统 IT 行业 35 岁危机:
├─ 体力和学习速度下降 → 竞争力 ↓
├─ 成本高 + 加班少 → 性价比 ↓
└─ 容易被年轻人替代
AI Native 时代:
├─ 经验多 = 知道什么任务该拆什么、怎么监督 AI
├─ 判断力强 = 知道 AI 哪里会出错、怎么兜底
├─ 需求理解深 = 业务经验能指挥 AI 干活
└─ 35+ 工程师反而更值钱我自己的印证:11 年测试架构师经验 + 14 篇论文 + 58 篇博客 = AI 时代最稀缺的"老法师"。
二、风口转移:从 Agent 到 Harness
2.1 三层价值链
2023-2024 风口(已过):
├─ 大模型(OpenAI、Anthropic、MiniMax、Google)
└─ Agent 框架(LangChain、AgentScope、Qwen-Agent)
2025-2026 风口(现在):
└─ 编排层 / Harness ← 新蓝海为什么编排层是新蓝海?
| 层级 | 竞争状态 | 进入门槛 |
|---|---|---|
| 模型层 | OpenAI、Anthropic 等巨头垄断 | ❌ 极高 |
| 数据层 | 互联网巨头有数据壁垒 | ❌ 高 |
| Agent 框架 | 标准化、同质化 | 🟡 中 |
| 编排层 / Harness | 差异化、新蓝海 | ✅ 工程师可做 |
2.2 Harness 的 3 大要素
"每一条都是 Harness"——演讲明确把 Harness 拆成 3 要素:
| 要素 | 含义 | 关键问题 |
|---|---|---|
| 数据飞轮 | 越用越聪明 | 数据怎么收集?模型怎么迭代? |
| 记忆与上下文 | 长期记忆 + 当前任务 | 记忆怎么分层?上下文怎么管理? |
| 行动能力 | 工具调用 + 多步执行 | 工具怎么接入?流程怎么编排? |
对应你精读过的论文:
- ✅ Voyager(数据飞轮)—— 终身学习
- ✅ MemGPT(记忆与上下文)—— 层级记忆
- ✅ ReAct / Toolformer(行动能力)—— 工具调用
- ✅ Reflexion(评估反馈)—— 闭环
这 3 要素 = 14 篇论文的"工程化抽象"
三、AI Native 产品 3 层架构
3.1 完整架构图
┌─────────────────────────────┐
│ 上层:人机交互界面 │ ← 用户直接接触
│ - 对话 UI │
│ - 任务面板 │
│ - 结果展示 │
├─────────────────────────────┤
│ 中间:编排层(最核心) │
│ - Agent 编排 │
│ - 工具与 MCP 适配 │
│ - Harness 设计 │
│ - 评估机制 │
│ - 知识工程 │
├─────────────────────────────┤
│ 底层:数据 │
│ - 业务数据 │
│ - 知识图谱 │
│ - 训练数据 │
│ - 反馈数据 │
└─────────────────────────────┘3.2 演讲关键洞察
"中间编排层 = 做接口层的适配,比较耗时"
"底层一定是数据"
"赢的不是模型,是编排"
3 层的价值分布:
- 底层数据:决定智能上限(数据质量 = 智能上限)
- 中间编排:决定效率(最耗时、最有壁垒)
- 上层 UI:决定体验(最易做、最易同质化)
3.3 对应你的项目
我自己的 3 层架构(已经在做):
【数据层】
├─ 14 篇论文精读(方法论数据)
├─ 58 篇博客(实践数据)
└─ 11 年测试数据(业务数据)
【编排层】
├─ AgentScope(多 Agent 编排)
├─ AI 测试助手(Harness 实践)
└─ Spring AI MCP Server(工具协议)
【人机交互层】
├─ 简历(个人品牌)
├─ Blog(知识输出)
└─ GitHub(开源贡献)你不是旁观者,你已经有完整的 3 层架构——只是需要系统化呈现。
四、Harness 思维:5 大实战框架
4.1 框架 1:CLAUDE.md / SOUL.md
"架构上下文先行"
CLAUDE.md(架构上下文):
# CLAUDE.md
## 项目架构
- Phaser3 + TypeScript
- Scene-Entity 模式
- 数据驱动配置
## 技术栈
- 游戏引擎:Phaser 3
- 语言:TypeScript
- 测试:54 个单元测试
## 关键决策
- 纹理程序化生成(避免外部资源)
- 数据驱动配置(方便调参)
- GitHub Pages 部署
## 已知限制
- 移动端适配未完成
- 性能优化未做SOUL.md(灵魂/价值观):
# SOUL.md
## 我们的灵魂
- 简单 > 复杂
- 玩法 > 画面
- 完整 > 完美
## 设计哲学
- 一个核心玩法做到极致
- 不要堆砌功能
## 团队文化
- 快速试错,每周发布
- 失败是常态这两个文件 = Agent 时代的"README + 团队文化手册"。
4.2 框架 2:评估者自循环
Agent 生成代码
↓
评估者 Agent 自动评审
↓
不通过 → 反馈给生成者 Agent → 重写
↓
通过 → 提交
↓
技术债累积 ← ⚠️ 需要人工定期清理演讲明确指出:
"需要评估者的 Agent 自循环"
"高级的工程师需要转评估者"
"独立的评估者上岗"
对应你 11 年测试架构师经验:
- 你最懂"技术债"是什么
- 你最懂"评估"是什么
- 测试架构师 = 天然的评估者
4.3 框架 3:Token 经济学
"AI 使用的判断 = 能上产品的概率"
"生成很快,验证必须更快"
传统判断:
AI 准不准?
AI 快不快?
新判断:
AI 上产品的概率多大?
(10% 概率 = 不做;80% 概率 = 投入)演讲作者的 Token 消耗:1-2 亿 token/天
1-2 亿 token 折合费用(GPT-4 价格):
$5,000-$10,000 = ¥36,000-72,000
价值产出:
可能 = 传统 1 个工程师 1 个月的工作Token 经济学思维:
- 不看单次成本,看 ROI
- 多 token 一次做对 = 省返工成本
- 1-2 亿 token 跑通任务 = 划算
4.4 框架 4:三角工种
"三角对应三种工种:计划、执行、评测"
"对于软技能要求更高"
Planner
计划/拆解
/\
/ \
/ \
/ 软 \
/ 技能 \
/ 要求 \
/ 更高 \
/ \
/________________\
Evaluator Executor
评测/反思 执行/干活软技能 3 件套:
- 沟通:理解模糊需求
- 抽象:高层视角拆解任务
- 批判:独立判断 AI 产出
产能放大:
- 传统开发者:1x
- Agent 时代:5-10x
- 我的 PlantGame 28 小时验证:~4-5x
4.5 框架 5:5 个工程师转型信号
【低风险(不容易被替)】
├─ 沟通协作型工作
├─ 业务理解型工作
├─ 决策判断型工作
└─ 创意设计型工作
【高风险(容易被替)】
├─ 纯写代码
├─ 纯测试用例
├─ 纯数据录入
└─ 纯机械操作演讲明确指出:
"面对电脑屏幕的人可能会被代替"
你的安全区:
- ✅ 11 年测试架构师(决策判断型)
- ✅ 团队负责人(沟通协作型)
- ✅ 14 篇论文精读(业务理解型)
- ❌ 不做"纯写代码"的事
五、研发管理者的 AI Native 角色
5.1 角色转变
"研发管理者,做 AI Native 角色"
传统研发管理者:
- 分配任务
- 进度跟踪
- Code Review
- 质量管理
AI Native 角色:
- 设计 Harness
- 评估 AI 产出
- 构建知识工程
- 培养 Harness 思维团队5.2 Karpathy 模式
"用 Karpathy 模式构建和 Review 代码"
Andrej Karpathy 的核心思想:
【构建代码】
- LLM 主导生成
- 人主导架构(CLAUDE.md)
- 人主导评估(Self-Reflection)
- 人主导迭代
【Review 代码】
- 不是逐行看
- 看架构、看关键决策
- 用 LLM 做第一轮 Review
- 人做最终决策Karpathy 模式 = LLM-first 的开发方式
我的实践:
- PlantGame 28 小时用 Claude Code —— LLM 主导生成
- 我主导架构决策(CLAUDE.md 思想)
- 我主导 Review(评估 AI 产出)
5.3 为用户构建 Harness
"为用户构建 Harness"
❌ 错误产品观:
"我给用户一个 AI 工具"
(用户只能用现成功能)
✅ 正确产品观:
"我给用户一个 Harness 平台"
(用户可以自己配置 AI 工作流)这呼应:
- ✅ Qoder 的 Experts Mode(用户配置角色)
- ✅ MetaGPT(用户配置 SOP)
- ✅ AgentScope(用户配置 Agent 编排)
六、简历改造:Harness 工程师模板
6.1 标题改造
【传统简历标题】
高级测试开发工程师
【AI 时代简历标题】
Harness 工程师 / AI Native 团队负责人6.2 技能树改造
【传统技能】
- Python、Java、TypeScript
- Selenium、Pytest、JMeter
- Docker、K8s、CI/CD
【AI 时代技能】
- Harness 设计:Agent 编排、工具集成、知识工程
- AI Native 架构:3 层架构(数据 + 编排 + UI)
- LLM 协作:Claude Code、AgentScope、MCP
- 评估方法:26 个评测维度、4 层金字塔
- 团队管理:4 极飞轮、特战小队、Karpathy 模式6.3 项目改造
【传统项目叙述】
AI 测试助手 | 项目负责人 | 2025.02 – 至今
- 基于 OpenClaw + Tavily Search 构建 AI 测试助手
- 设计 Prompt Engineering 全链路流程
- 测试用例编写时间减少 30%
【AI 时代项目叙述】
AI 测试助手 2.0 | Harness 工程师 | 2025.02 – 至今
【数据层】
- 构建 11 年测试数据 + 知识图谱
- 集成 RAG + Agentic RAG 检索
【编排层】
- 设计 3 层 AI Native 架构(数据 + 编排 + UI)
- 基于 AgentScope 实现多 Agent Harness
- 集成 Spring AI MCP Server 工具集
【评估层】
- 引入复旦 4 层金字塔评测体系
- Token 经济学评估(代价 × 信任度)
【成果】
- 测试用例编写时间减少 30%
- AI 自维护测试集(Qoder 思想)
- 团队推广 AI Coding,提效 30%6.4 个人优势改造
【改造前】
11 年华为测试架构师
- 主导测试架构设计
- 团队管理
【改造后】
11 年测试架构师 + Harness 工程师
🏆 AI Coding 深度实践
- 独立完成 PlantsGame MVP(28h / Phaser3+TS / 54 测试)
- 主导 AI Coding 推广,团队提效 30%
🏆 团队 AI Native 转型
- 2026.04 晋升团队负责人
- 培养 5+ 新人 Harness 思维
- 主导 10+ 场 AI 主题分享
🏆 知识工程与 Harness 设计
- 14 篇 Agent 论文精读
- 58 篇博客(5万字+)
- AgentScope 多 Agent 编排实战
🏆 26 维评测体系
- 引入复旦 4 层金字塔
- Token 经济学评估
- AI 自维护测试集七、个人转型路径:4 个阶段
阶段 1:技能升级(已完成 80%)
【已完成】
✅ 14 篇论文精读(认知层)
✅ 58 篇博客(输出层)
✅ AgentScope 实战(编排层)
✅ PlantGame MVP(验证层)
【待补】
🔲 CLAUDE.md / SOUL.md 实践
🔲 Karpathy 模式 Review
🔲 Token 经济学思维阶段 2:身份升级(进行中)
【新身份】
🔲 Harness 工程师
🔲 AI Native 团队负责人
🔲 AI 评测工程师
【改简历】
🔲 标题改:测试架构师 → Harness 工程师
🔲 技能改:测试技能 → Harness 技能
🔲 项目改:测试项目 → AI Native 3 层架构阶段 3:业务升级(未来 3 个月)
【升级路径】
🔲 AI 测试助手 1.0 → 2.0(按复旦 4 层金字塔升级)
🔲 AgentScope 1.0 → 2.0(按 Qoder Experts Mode 升级)
🔲 团队 1.0 → 2.0(按 4 极飞轮升级)阶段 4:影响力升级(未来 6-12 个月)
【影响力路径】
🔲 写 1 本《AI Native 工程师手册》
🔲 开 1 门《Harness 设计实战》课程
🔲 建 1 个 ADPS 中国工程师社区
🔲 推动公司内部 AI Native 转型八、Day1 7 场演讲核心提炼
| 演讲 | 核心金句 | 我的转化 |
|---|---|---|
| 黄佳 | "Harness = 资源管理" | 14 篇论文 = ADPS 候选清单 |
| Qoder | "知识工程是护城河" | 11 年测试数据 = 数据飞轮 |
| 复旦 | "4 层金字塔评测" | AI 测试助手 2.0 评测体系 |
| Agent→Harness | "35 岁魔咒打破" | 11 年经验 = 老法师价值 |
| 人+智能体 | "19 人 300 万/人效" | 5-7 人特战小队 |
| Devin | "CLAUDE.md / SOUL.md" | 给所有项目加 CLAUDE.md |
| Harness 思维 | "简历写 Harness 工程师" | 已改简历(见第 6 节) |
7 场演讲 = 1 个身份:Harness 工程师 / AI Native 团队负责人
九、面试最强回答(Day1 7 场完整版)
"Agentic AICon Day1 7 场演讲给我 3 个核心判断 + 1 个新身份:
判断 1:AI 是钢铁侠外衣,不是无人驾驶(增强,不是替代)
判断 2:风口从 Agent 搬到 Harness(编排层是新蓝海)
判断 3:每一条都是 Harness(数据飞轮 + 记忆上下文 + 行动能力)新身份:Harness 工程师 / AI Native 团队负责人
我做了 11 年测试架构师 + 14 篇论文 + AgentScope + PlantGame 28 小时 + 4-5x 产能验证 = AI Native 时代的 Harness 工程师。
具体我做了 5 件事:
这个回答 = 3 判断 + 1 身份 + 5 行动 = 顶级回答 ✅
十、给同样在转型的工程师 5 条建议
建议 1:立刻开始写 CLAUDE.md
不要等"完美方案"
立刻给你的项目写一个 CLAUDE.md
让 AI 第一次启动就能理解项目架构建议 2:建立"评估者"角色
不要只做"写代码的工程师"
开始做"评估 AI 产出的工程师"
这是 35+ 工程师的安全区建议 3:算 Token 经济学账
不要只看"准不准、快不快"
要算"代价 × 信任度"
看 Token 经济学 ROI建议 4:拥抱 3 层 AI Native 架构
不要只做"用 AI 的工程师"
要做"建 Harness 平台的工程师"
为用户构建 Harness建议 5:Karpathy 模式 Review 代码
不要逐行 Review
看架构、看关键决策
用 LLM 做第一轮 Review
人做最终决策附录:Day1 8 场演讲清单
| # | 演讲 | 关键金句 |
|---|---|---|
| 1 | 复旦·评测 | 26 维度 + 4 层金字塔 |
| 2 | Qoder | 7 问题 + 3 架构 + 4 极飞轮 |
| 3 | 黄佳 | ADPS + Harness = 资源管理 |
| 4 | Agent→Harness | 35 岁 + 三角工种 + 5-10x |
| 5 | 人+智能体 | 19 人 + 300 万/人效 + 12 Agent |
| 6 | Devin | 89% + CLAUDE.md + 3 层架构 |
| 7 | Harness 思维 | 钢铁侠外衣 + 编排风口 |
| 8 | 研发管理者 | AI Native 角色 + Karpathy 模式 |
欢迎交流讨论,我的 blog:sunrong.site
相关阅读: