← 总导航
/
Harness Engineering
Harness Engineering
LLM 评估框架工程 · evaluation harness · benchmark harness · 可复现评估系统
归档报告(最新在前)
May
05
#1
AgentPulse:18 个真实部署信号 × 50 个 Agent × 4 维度的连续评估框架
Gao, Wang, Yu · arXiv 2026-04-27 · Deployment-aware harness
93 分
May
04
#1
VeRO:第一个面向"Agent 优化 Agent"的可复现评测 Harness
Ursekar, Shanker, Chatrath et al. · arXiv 2026-02-25 · Meta-Evolution 的量尺
93 分
May
03
#1
Terminal Wrench:331 个可 reward-hack 的 Agent 环境 + 3,632 条利用轨迹
Bercovich, Segal, Zhang et al. · arXiv 2026-04-19 · Harness 信度基础数据集
94 分
May
02
#1
《最后一次你需要亲手搭 Harness》:两层元进化,自动化"自动化本身"
Seong, Yin, Zhang · arXiv 2026-04-22 (v2 04-28) · Meta-Evolution Loop
94 分
May
01
#1
SemaClaw:用 Harness Engineering 迈向通用个人 AI Agent 的开源实现
Zhu, Wang et al. · arXiv 2026-04-13 · DAG + PermissionBridge 四件套
93 分
Apr
30
#1
AgentFlow:用类型化图 DSL 合成多 Agent Harness,挖出 10 个 Chrome 0-day
Liu, Shou et al. · arXiv 2026-04-22 · TerminalBench-2 84.3%
94 分
Apr
29
#2
vla-eval:解耦模型推理与评测执行的统一 VLA 评估 Harness
Choi, Lee et al. · AI2 / UW / NVIDIA · arXiv 2026-03-14 (v2 04-17)
92 分
Apr
29
#1
Agentic Harness Engineering:由可观测性驱动的 Coding Agent Harness 自动演化
Lin, Liu et al. · 复旦/上海 AI Lab/微软研究院 · arXiv 2026-04-28
93 分
Apr
28
#1
LLM Agent 外部化:记忆、技能、协议与 Harness Engineering 统一综述
Zhou, Chai et al. · 上海交通大学/CMU · arXiv 2026-04-09
94 分