标签: AgentBench

AI Agent41
论文解读10
会议笔记8
学习方法8
6岁7
Claude Code6
AI 时代6
个人成长6
职业发展6
STEM6
OpenClaw6
Multi-Agent6
AgentScope5
论文精读5
科学启蒙5
Harness4
育儿心得4
亲子时光4
职场心得4
MCP4
Hermes Agent4
华为成长4
AI Coding3
团队管理3
Vibe Coding3
架构设计3
上海生活3
思维能力3
亲子实验3
Harness 工程师3
RAG3
AI 实践3
清华大学3
LLM3
规划与洞察3
元认知学习3
元认知3
学习系统3
游戏开发2
领导力2
软件工程2
复杂系统2
范式重构2
复旦2
复利思维2
王阳明2
知行合一2
致良知2
方法论2
自动化测试2
面试2
面试官2
职场成长2
华为2
测试技术2
亲子教育2
AI 编程2
效率提升2
认知升级2
学习笔记2
工具调用2
AgentBench2
ReAct2
向量数据库2
技术成长2
DDD2
微服务2
AI 学习2
自我提升2
delegate_task2
自动化2
面试经验2
多 Agent2
个人介绍1
关于我1
Phaser31
项目复盘1
第一性原理1
完整战报1
知识网络1
参会报告1
PPT1
团队参考1
Agentic AICon1
华为 TMG1
护城河1
组织 Harness1
架构师视角1
人机分工1
微流程 SOP1
工程化原则1
金融 AI1
知识图谱1
Agent 安全1
治理1
灰度上线1
框架选型1
软件开发1
问题定义1
grill-me1
OpenCode1
技术选型1
团队决策1
测试1
部门转型1
Meta-Harness1
AI 工程师1
简历升级1
TDD1
Subagent Driven Development1
重构实战1
开发者能力1
认知能力1
工程方法1
认知提升1
项目成果1
技术面试1
管理1
技术能力1
心学1
开源项目1
博客1
技术分享1
成长1
程序员1
中山公园1
程序员爸爸1
科学课程1
资源推荐1
少儿编程1
第一周1
冰棍1
溶解1
漂浮与沉没1
幼小衔接1
VSCode1
code-server1
远程开发1
工具链1
Caddy1
源码学习1
CodeBuddy1
开发工作流1
Skill 设计1
组件化思维1
Skill 开发1
环境运维1
多 Agent 架构1
知识工程1
组织变革1
AI 协作1
π 型人才1
项目管理 Agent1
35 岁转型1
AI 友好性1
JSON 存储1
扁平化架构1
测试自动化1
架构升级1
多 Agent 协作1
面试总结1
AI编程工具1
Agent开发1
工具使用1
学习总结1
AI Native1
工程师转型1
Karpathy 模式1
Hermes1
会话管理1
测试智能化1
问题单分析1
接口设计1
工程实践1
本地部署1
记忆管理1
AI1
实战项目1
AI助手1
AI 工业化1
阿里云1
Token 节约1
AI 应用1
数学基础1
线性代数1
微积分1
概率论1
AI工程师1
论文学习1
系列索引1
评测1
工业落地1
评测基准1
Agentic RAG1
知识管理1
AgentVerse1
架构演进1
综述1
前沿进展1
实践分享1
培训1
HERO平台1
AI基础1
机器学习1
深度学习1
计算机视觉1
NLP1
Chain-of-Thought1
AI 理论1
ChatDev1
Computer Use1
GUI Agent1
多模态1
软件架构1
Harness Engineering1
AI 转型1
技术洞察1
Generative Agents1
社会模拟1
斯坦福1
记忆系统1
Mem01
MemGPT1
层级记忆1
上下文管理1
MetaGPT1
个人助手1
工具对比1
开发者指南1
Qwen1
Embedding1
llama.cpp1
CoT1
Reflexion1
自我反思1
Self-Discovering1
推理结构1
Google DeepMind1
Toolformer1
自监督学习1
Voyager1
终身学习1
Embodied Agent1
时间管理1
团建活动1
党支部书记1
可靠性测试1
测试架构1
算法1
面试准备1
MySQL1
数据库基础1
SQL1
LeetCode1
能力提升1
Spring Cloud1
顶层设计者1
toeic1
超级学习者1
学习方法论1
每日循环1
状态管理1
人才评估1
心流1
专注力1
学习效率1
9 大思维1
自我管理1
专利基础1
知识产权1
创新1
PMP1
项目管理1
职业认证1
学习习惯1

Agent 评测的 16 反思 + 4 层金字塔：复旦新框架对中国 Agent 工程师的启示

会议：Agentic AICon 2026 智能体应用与架构工程大会
演讲：复旦大学 · 智能体评测新框架
记录人：Mr.Sun（资深测试架构师 / AI Agent 方向）
本文：把复旦关于 Agent 评测的 6+1 问题 + 9 大洞察 + 6 大范式 + 4 层金字塔，整理成一份可落地的"Agent 评测工程师自检清单"

Mr.Sun2026年6月5日...大约 12 分钟

AgentBench 论文深度解读：第一个系统化评估 LLM 作为 Agent 能力的基准

AgentBench: Evaluating LLMs as Agents
论文：Liu, Xu et al., 清华 + 上交 + UC Berkeley + Microsoft + Stanford 等
原文链接：https://arxiv.org/abs/2308.03688
发表：2023.8 | 引用：1000+（Semantic Scholar）
开源：https://github.com/alibabaagents/agentbench
本文记录我的论文学习过程与核心理解

Mr.Sun2026年5月6日...大约 11 分钟