Harness Engineering 归档 · Daily Paper Tracker

归档报告（最新在前）

May

05

#1

AgentPulse：18 个真实部署信号 × 50 个 Agent × 4 维度的连续评估框架

Gao, Wang, Yu · arXiv 2026-04-27 · Deployment-aware harness

93 分
May

04

#1

VeRO：第一个面向"Agent 优化 Agent"的可复现评测 Harness

Ursekar, Shanker, Chatrath et al. · arXiv 2026-02-25 · Meta-Evolution 的量尺

93 分
May

03

#1

Terminal Wrench：331 个可 reward-hack 的 Agent 环境 + 3,632 条利用轨迹

Bercovich, Segal, Zhang et al. · arXiv 2026-04-19 · Harness 信度基础数据集

94 分
May

02

#1

《最后一次你需要亲手搭 Harness》：两层元进化，自动化"自动化本身"

Seong, Yin, Zhang · arXiv 2026-04-22 (v2 04-28) · Meta-Evolution Loop

94 分
May

01

#1

SemaClaw：用 Harness Engineering 迈向通用个人 AI Agent 的开源实现

Zhu, Wang et al. · arXiv 2026-04-13 · DAG + PermissionBridge 四件套

93 分
Apr

30

#1

AgentFlow：用类型化图 DSL 合成多 Agent Harness，挖出 10 个 Chrome 0-day

Liu, Shou et al. · arXiv 2026-04-22 · TerminalBench-2 84.3%

94 分
Apr

29

#2

vla-eval：解耦模型推理与评测执行的统一 VLA 评估 Harness

Choi, Lee et al. · AI2 / UW / NVIDIA · arXiv 2026-03-14 (v2 04-17)

92 分
Apr

29

#1

Agentic Harness Engineering：由可观测性驱动的 Coding Agent Harness 自动演化

Lin, Liu et al. · 复旦/上海 AI Lab/微软研究院 · arXiv 2026-04-28

93 分
Apr

28

#1

LLM Agent 外部化：记忆、技能、协议与 Harness Engineering 统一综述

Zhou, Chai et al. · 上海交通大学/CMU · arXiv 2026-04-09

94 分