AI Native 工程师转型：Harness 思维、Karpathy 模式完整指南

Mr.Sun2026年6月5日...大约 12 分钟

AI Native 工程师转型：Harness 思维、Karpathy 模式完整指南

会议：Agentic AICon 2026 智能体应用与架构工程大会
演讲：AI Native 工程师的角色重塑（Day1 终极篇）
记录人：Mr.Sun（11年华为测试架构师 / 2026.04 晋升团队负责人）
本文：把 Day1 7 场演讲的核心洞察，浓缩成一份AI 时代工程师的完整转型指南

📌 写在前面

昨天 Day1 听完了 7 场演讲，最让我震撼的不是某个具体技术点，而是贯穿所有演讲的 3 个核心信号：

AI 是钢铁侠外衣，不是无人驾驶——人不会被替代，但必须进化
风口从 Agent 搬到 Harness——编排层是新蓝海
每一条都是 Harness——数据飞轮 + 记忆上下文 + 行动能力

这 3 个信号合起来 = "AI Native 工程师"这个新身份。

本文是 Day1 7 场演讲的实战篇——讲怎么把"知识"变成"行动"，把"演讲"变成"简历"。

一、核心认知：AI 是钢铁侠外衣

1.1 两个比喻的对比

❌ 无人驾驶比喻（错误）：
  AI = 自主驾驶
  人 = 睡觉
  → 完全替代人

✅ 钢铁侠外衣比喻（正确）：
  AI = 增强外衣
  人 = 钢铁侠本人
  → AI 增强人，人还是核心

这个比喻的深刻之处：

钢铁侠没了外衣还是托尼·斯塔克（核心能力不变）
外衣让托尼的能力放大 10x
人 + AI = 放大 10x 的人

1.2 对中年工程师的意义

"Agent 打破了 35 岁魔咒"

传统 IT 行业 35 岁危机：
├─ 体力和学习速度下降 → 竞争力 ↓
├─ 成本高 + 加班少 → 性价比 ↓
└─ 容易被年轻人替代

AI Native 时代：
├─ 经验多 = 知道什么任务该拆什么、怎么监督 AI
├─ 判断力强 = 知道 AI 哪里会出错、怎么兜底
├─ 需求理解深 = 业务经验能指挥 AI 干活
└─ 35+ 工程师反而更值钱

我自己的印证：11 年测试架构师经验 + 14 篇论文 + 58 篇博客 = AI 时代最稀缺的"老法师"。

二、风口转移：从 Agent 到 Harness

2.1 三层价值链

2023-2024 风口（已过）：
├─ 大模型（OpenAI、Anthropic、MiniMax、Google）
└─ Agent 框架（LangChain、AgentScope、Qwen-Agent）

2025-2026 风口（现在）：
└─ 编排层 / Harness ← 新蓝海

为什么编排层是新蓝海？

层级	竞争状态	进入门槛
模型层	OpenAI、Anthropic 等巨头垄断	❌ 极高
数据层	互联网巨头有数据壁垒	❌ 高
Agent 框架	标准化、同质化	🟡 中
编排层 / Harness	差异化、新蓝海	✅ 工程师可做

2.2 Harness 的 3 大要素

"每一条都是 Harness"——演讲明确把 Harness 拆成 3 要素：

要素	含义	关键问题
数据飞轮	越用越聪明	数据怎么收集？模型怎么迭代？
记忆与上下文	长期记忆 + 当前任务	记忆怎么分层？上下文怎么管理？
行动能力	工具调用 + 多步执行	工具怎么接入？流程怎么编排？

对应你精读过的论文：

✅ Voyager（数据飞轮）—— 终身学习
✅ MemGPT（记忆与上下文）—— 层级记忆
✅ ReAct / Toolformer（行动能力）—— 工具调用
✅ Reflexion（评估反馈）—— 闭环

这 3 要素 = 14 篇论文的"工程化抽象"

三、AI Native 产品 3 层架构

3.1 完整架构图

┌─────────────────────────────┐
│ 上层：人机交互界面            │  ← 用户直接接触
│ - 对话 UI                   │
│ - 任务面板                  │
│ - 结果展示                  │
├─────────────────────────────┤
│ 中间：编排层（最核心）        │
│ - Agent 编排                │
│ - 工具与 MCP 适配            │
│ - Harness 设计              │
│ - 评估机制                  │
│ - 知识工程                  │
├─────────────────────────────┤
│ 底层：数据                    │
│ - 业务数据                  │
│ - 知识图谱                  │
│ - 训练数据                  │
│ - 反馈数据                  │
└─────────────────────────────┘

3.2 演讲关键洞察

"中间编排层 = 做接口层的适配，比较耗时"
"底层一定是数据"
"赢的不是模型，是编排"

3 层的价值分布：

底层数据：决定智能上限（数据质量 = 智能上限）
中间编排：决定效率（最耗时、最有壁垒）
上层 UI：决定体验（最易做、最易同质化）

3.3 对应你的项目

我自己的 3 层架构（已经在做）：

【数据层】
├─ 14 篇论文精读（方法论数据）
├─ 58 篇博客（实践数据）
└─ 11 年测试数据（业务数据）

【编排层】
├─ AgentScope（多 Agent 编排）
├─ AI 测试助手（Harness 实践）
└─ Spring AI MCP Server（工具协议）

【人机交互层】
├─ 简历（个人品牌）
├─ Blog（知识输出）
└─ GitHub（开源贡献）

你不是旁观者，你已经有完整的 3 层架构——只是需要系统化呈现。

四、Harness 思维：5 大实战框架

4.1 框架 1：CLAUDE.md / SOUL.md

"架构上下文先行"

CLAUDE.md（架构上下文）：

# CLAUDE.md

## 项目架构
- Phaser3 + TypeScript
- Scene-Entity 模式
- 数据驱动配置

## 技术栈
- 游戏引擎：Phaser 3
- 语言：TypeScript
- 测试：54 个单元测试

## 关键决策
- 纹理程序化生成（避免外部资源）
- 数据驱动配置（方便调参）
- GitHub Pages 部署

## 已知限制
- 移动端适配未完成
- 性能优化未做

SOUL.md（灵魂/价值观）：

# SOUL.md

## 我们的灵魂
- 简单 > 复杂
- 玩法 > 画面
- 完整 > 完美

## 设计哲学
- 一个核心玩法做到极致
- 不要堆砌功能

## 团队文化
- 快速试错，每周发布
- 失败是常态

这两个文件 = Agent 时代的"README + 团队文化手册"。

4.2 框架 2：评估者自循环

Agent 生成代码
    ↓
评估者 Agent 自动评审
    ↓
不通过 → 反馈给生成者 Agent → 重写
    ↓
通过 → 提交
    ↓
技术债累积 ← ⚠️ 需要人工定期清理

演讲明确指出：

"需要评估者的 Agent 自循环"
"高级的工程师需要转评估者"
"独立的评估者上岗"

对应你 11 年测试架构师经验：

你最懂"技术债"是什么
你最懂"评估"是什么
测试架构师 = 天然的评估者

4.3 框架 3：Token 经济学

"AI 使用的判断 = 能上产品的概率"
"生成很快，验证必须更快"

传统判断：
  AI 准不准？
  AI 快不快？

新判断：
  AI 上产品的概率多大？
  （10% 概率 = 不做；80% 概率 = 投入）

演讲作者的 Token 消耗：1-2 亿 token/天

1-2 亿 token 折合费用（GPT-4 价格）：
  $5,000-$10,000 = ¥36,000-72,000

价值产出：
  可能 = 传统 1 个工程师 1 个月的工作

Token 经济学思维：

不看单次成本，看 ROI
多 token 一次做对 = 省返工成本
1-2 亿 token 跑通任务 = 划算

4.4 框架 4：三角工种

"三角对应三种工种：计划、执行、评测"
"对于软技能要求更高"

                Planner
              计划/拆解
                /\
               /  \
              /    \
             /  软  \
            /  技能  \
           /   要求   \
          /    更高    \
         /              \
        /________________\
   Evaluator          Executor
   评测/反思           执行/干活

软技能 3 件套：

沟通：理解模糊需求
抽象：高层视角拆解任务
批判：独立判断 AI 产出

产能放大：

传统开发者：1x
Agent 时代：5-10x
我的 PlantGame 28 小时验证：~4-5x

4.5 框架 5：5 个工程师转型信号

【低风险（不容易被替）】
├─ 沟通协作型工作
├─ 业务理解型工作
├─ 决策判断型工作
└─ 创意设计型工作

【高风险（容易被替）】
├─ 纯写代码
├─ 纯测试用例
├─ 纯数据录入
└─ 纯机械操作

演讲明确指出：

"面对电脑屏幕的人可能会被代替"

你的安全区：

✅ 11 年测试架构师（决策判断型）
✅ 团队负责人（沟通协作型）
✅ 14 篇论文精读（业务理解型）
❌ 不做"纯写代码"的事

五、研发管理者的 AI Native 角色

5.1 角色转变

"研发管理者，做 AI Native 角色"

传统研发管理者：
  - 分配任务
  - 进度跟踪
  - Code Review
  - 质量管理

AI Native 角色：
  - 设计 Harness
  - 评估 AI 产出
  - 构建知识工程
  - 培养 Harness 思维团队

5.2 Karpathy 模式

"用 Karpathy 模式构建和 Review 代码"

Andrej Karpathy 的核心思想：

【构建代码】
  - LLM 主导生成
  - 人主导架构（CLAUDE.md）
  - 人主导评估（Self-Reflection）
  - 人主导迭代

【Review 代码】
  - 不是逐行看
  - 看架构、看关键决策
  - 用 LLM 做第一轮 Review
  - 人做最终决策

Karpathy 模式 = LLM-first 的开发方式

我的实践：

PlantGame 28 小时用 Claude Code —— LLM 主导生成
我主导架构决策（CLAUDE.md 思想）
我主导 Review（评估 AI 产出）

5.3 为用户构建 Harness

"为用户构建 Harness"

❌ 错误产品观：
  "我给用户一个 AI 工具"
  （用户只能用现成功能）

✅ 正确产品观：
  "我给用户一个 Harness 平台"
  （用户可以自己配置 AI 工作流）

这呼应：

✅ Qoder 的 Experts Mode（用户配置角色）
✅ MetaGPT（用户配置 SOP）
✅ AgentScope（用户配置 Agent 编排）

六、简历改造：Harness 工程师模板

6.1 标题改造

【传统简历标题】
  高级测试开发工程师

【AI 时代简历标题】
  Harness 工程师 / AI Native 团队负责人

6.2 技能树改造

【传统技能】
  - Python、Java、TypeScript
  - Selenium、Pytest、JMeter
  - Docker、K8s、CI/CD

【AI 时代技能】
  - Harness 设计：Agent 编排、工具集成、知识工程
  - AI Native 架构：3 层架构（数据 + 编排 + UI）
  - LLM 协作：Claude Code、AgentScope、MCP
  - 评估方法：26 个评测维度、4 层金字塔
  - 团队管理：4 极飞轮、特战小队、Karpathy 模式

6.3 项目改造

【传统项目叙述】
  AI 测试助手 | 项目负责人 | 2025.02 – 至今
  - 基于 OpenClaw + Tavily Search 构建 AI 测试助手
  - 设计 Prompt Engineering 全链路流程
  - 测试用例编写时间减少 30%

【AI 时代项目叙述】
  AI 测试助手 2.0 | Harness 工程师 | 2025.02 – 至今
  【数据层】
  - 构建 11 年测试数据 + 知识图谱
  - 集成 RAG + Agentic RAG 检索
  【编排层】
  - 设计 3 层 AI Native 架构（数据 + 编排 + UI）
  - 基于 AgentScope 实现多 Agent Harness
  - 集成 Spring AI MCP Server 工具集
  【评估层】
  - 引入复旦 4 层金字塔评测体系
  - Token 经济学评估（代价 × 信任度）
  【成果】
  - 测试用例编写时间减少 30%
  - AI 自维护测试集（Qoder 思想）
  - 团队推广 AI Coding，提效 30%

6.4 个人优势改造

【改造前】
  11 年华为测试架构师
  - 主导测试架构设计
  - 团队管理

【改造后】
  11 年测试架构师 + Harness 工程师
  🏆 AI Coding 深度实践
  - 独立完成 PlantsGame MVP（28h / Phaser3+TS / 54 测试）
  - 主导 AI Coding 推广，团队提效 30%
  
  🏆 团队 AI Native 转型
  - 2026.04 晋升团队负责人
  - 培养 5+ 新人 Harness 思维
  - 主导 10+ 场 AI 主题分享
  
  🏆 知识工程与 Harness 设计
  - 14 篇 Agent 论文精读
  - 58 篇博客（5万字+）
  - AgentScope 多 Agent 编排实战
  
  🏆 26 维评测体系
  - 引入复旦 4 层金字塔
  - Token 经济学评估
  - AI 自维护测试集

七、个人转型路径：4 个阶段

阶段 1：技能升级（已完成 80%）

【已完成】
✅ 14 篇论文精读（认知层）
✅ 58 篇博客（输出层）
✅ AgentScope 实战（编排层）
✅ PlantGame MVP（验证层）

【待补】
🔲 CLAUDE.md / SOUL.md 实践
🔲 Karpathy 模式 Review
🔲 Token 经济学思维

阶段 2：身份升级（进行中）

【新身份】
🔲 Harness 工程师
🔲 AI Native 团队负责人
🔲 AI 评测工程师

【改简历】
🔲 标题改：测试架构师 → Harness 工程师
🔲 技能改：测试技能 → Harness 技能
🔲 项目改：测试项目 → AI Native 3 层架构

阶段 3：业务升级（未来 3 个月）

【升级路径】
🔲 AI 测试助手 1.0 → 2.0（按复旦 4 层金字塔升级）
🔲 AgentScope 1.0 → 2.0（按 Qoder Experts Mode 升级）
🔲 团队 1.0 → 2.0（按 4 极飞轮升级）

阶段 4：影响力升级（未来 6-12 个月）

【影响力路径】
🔲 写 1 本《AI Native 工程师手册》
🔲 开 1 门《Harness 设计实战》课程
🔲 建 1 个 ADPS 中国工程师社区
🔲 推动公司内部 AI Native 转型

八、Day1 7 场演讲核心提炼

演讲	核心金句	我的转化
黄佳	"Harness = 资源管理"	14 篇论文 = ADPS 候选清单
Qoder	"知识工程是护城河"	11 年测试数据 = 数据飞轮
复旦	"4 层金字塔评测"	AI 测试助手 2.0 评测体系
Agent→Harness	"35 岁魔咒打破"	11 年经验 = 老法师价值
人+智能体	"19 人 300 万/人效"	5-7 人特战小队
Devin	"CLAUDE.md / SOUL.md"	给所有项目加 CLAUDE.md
Harness 思维	"简历写 Harness 工程师"	已改简历（见第 6 节）

7 场演讲 = 1 个身份：Harness 工程师 / AI Native 团队负责人

九、面试最强回答（Day1 7 场完整版）

"Agentic AICon Day1 7 场演讲给我 3 个核心判断 + 1 个新身份：
判断 1：AI 是钢铁侠外衣，不是无人驾驶（增强，不是替代）
判断 2：风口从 Agent 搬到 Harness（编排层是新蓝海）
判断 3：每一条都是 Harness（数据飞轮 + 记忆上下文 + 行动能力）
新身份：Harness 工程师 / AI Native 团队负责人
我做了 11 年测试架构师 + 14 篇论文 + AgentScope + PlantGame 28 小时 + 4-5x 产能验证 = AI Native 时代的 Harness 工程师。
具体我做了 5 件事：
知识工程：14 篇论文精读 + 知识图谱化
编排设计：AgentScope 多 Agent Harness
评估体系：复旦 4 层金字塔 + Token 经济学
团队管理：AI Coding 推广 + 5-7 人特战小队
个人转型：Karpathy 模式 + CLAUDE.md / SOUL.md"

这个回答 = 3 判断 + 1 身份 + 5 行动 = 顶级回答 ✅

十、给同样在转型的工程师 5 条建议

建议 1：立刻开始写 CLAUDE.md

不要等"完美方案"
立刻给你的项目写一个 CLAUDE.md
让 AI 第一次启动就能理解项目架构

建议 2：建立"评估者"角色

不要只做"写代码的工程师"
开始做"评估 AI 产出的工程师"
这是 35+ 工程师的安全区

建议 3：算 Token 经济学账

不要只看"准不准、快不快"
要算"代价 × 信任度"
看 Token 经济学 ROI

建议 4：拥抱 3 层 AI Native 架构

不要只做"用 AI 的工程师"
要做"建 Harness 平台的工程师"
为用户构建 Harness

建议 5：Karpathy 模式 Review 代码

不要逐行 Review
看架构、看关键决策
用 LLM 做第一轮 Review
人做最终决策

附录：Day1 8 场演讲清单

#	演讲	关键金句
1	复旦·评测	26 维度 + 4 层金字塔
2	Qoder	7 问题 + 3 架构 + 4 极飞轮
3	黄佳	ADPS + Harness = 资源管理
4	Agent→Harness	35 岁 + 三角工种 + 5-10x
5	人+智能体	19 人 + 300 万/人效 + 12 Agent
6	Devin	89% + CLAUDE.md + 3 层架构
7	Harness 思维	钢铁侠外衣 + 编排风口
8	研发管理者	AI Native 角色 + Karpathy 模式

欢迎交流讨论，我的 blog：sunrong.site

相关阅读：

贡献者

Sun Rong