| 标题(简) | 方向 | 来源 | 综合分 |
|---|---|---|---|
| Agentic Harness Engineering (AHE)…今日选定 | Harness Engineering | arXiv 2026-04-28 | 93 |
| AgentPulse: 部署后连续多信号评估… | Harness / 评估 | arXiv 2026-04-27 | 84 |
| ClawMark: 多日多模态 Coworker Agent Benchmark… | Harness / Benchmark | arXiv 2026-04-26 | 83 |
| AutoRISE: Red-Teaming 策略演化 Harness… | Harness / Safety | arXiv 2026-04-23 | 81 |
| Terminal Wrench: Reward-Hackable Harness 环境… | Harness / Safety | arXiv 2026-04-19 | 80 |
| SemaClaw: Personal AI Agents & Harness Engineering | Harness Engineering | arXiv 2026-04-13 | 79 |
| AutoQResearch: 量子优化的 Evaluation Harness | Harness / 量子 | arXiv 2026-04-27 | 70 |
| SemanticQA: 语义推理评测 Harness | Harness / 评估 | arXiv 2026-04-17 | 68 |
Harness(承载 Agent 与代码仓库、工具、执行环境交互的工程框架)已经成为决定 Coding Agent 表现的核心因素。然而自动化 Harness Engineering 本身极其困难:动作空间异构、评估信号稀疏且嘈杂、单次运行的轨迹动辄数百万 Token、而且某次编辑到底如何影响下一轮结果几乎无法直接归因。
本文提出 Agentic Harness Engineering (AHE):一个通过在工程闭环的三个阶段(组件编辑、轨迹检查、决策)配套部署"匹配的可观测性支柱",来自动演化 Harness 本身的框架。(1)组件可观测性为每一个可编辑的 Harness 组件提供文件级表示,让动作空间显式且可回滚;(2)经验可观测性将数百万 Token 的原始轨迹蒸馏为分层的、可下钻的证据语料,让正在演化的 Agent 真正消化得下;(3)决策可观测性要求每一次编辑附带一个自我声明的预期,后续再对照下一轮任务级结果进行验证。
在 Terminal-Bench 2 上,AHE 以 10 次迭代将 Pass@1 从 69.7% 提升到 77.0%,超过了 Codex-CLI 的 71.9%,也强于 ACE 和 TF-GRPO 等同期基线;在 SWE-bench-verified 上,AHE 以比初始 seed 少 12% 的 Token 达到更高的综合成功率;在三个不同模型家族上,AHE 的跨家族增益稳定在 +5.1 ~ +10.1 个百分点。
解决了什么问题:当前所有 Coding Agent(Claude Code、Codex CLI、OpenDevin、SWE-agent 等)都严重依赖人工调试的 Harness——Prompt 模板、工具集、沙箱策略、检索规则、失败恢复路径等。这些 Harness 随任务、模型、代码库变化而需要持续迭代,但因为动作空间太大、反馈太嘈杂,目前几乎全部依赖专家手工调参。论文问的核心问题是:能不能让 Agent 自己改 Agent 的 Harness?
核心框架——三层可观测性:
| 可观测性层 | 解决的具体痛点 | 实现方式 |
|---|---|---|
| 组件可观测性 | Harness 是一坨胶水代码,改哪都怕误伤 | 将 Harness 拆为文件级组件(Prompt、Tool Schema、策略文件等),每次编辑落到单个文件;保留版本快照,任何修改可原子回滚 |
| 经验可观测性 | 百万 Token 的轨迹,LLM 读不完也看不清 | 把原始轨迹蒸馏成分层证据语料:任务级 summary → 步骤级 anomaly → Token 级 evidence snippet,Agent 可按需下钻 |
| 决策可观测性 | 改完不知道是变好还是变坏 | 每次编辑必须附带"我预计这会改善 X 类任务的 Y 指标";下一轮实际结果与预期对齐的编辑被保留,反之回滚 |
与现有工作的关键差异:ACE(Self-Evolving Agent Capability)和 TF-GRPO 等方法聚焦于优化 Prompt 或动作策略,属于"参数级"演化;AHE 将 Harness 本身作为一等演化对象——它编辑的是整个评估与执行基础设施,而不是单条 Prompt 或 RL 权重。这种抽象层级的提升直接带来了跨模型家族(不同 LLM 替换)的稳定增益。
方法论上的新意:论文将"预测-验证"机制注入到自动演化循环——这非常类似科学研究中的假设驱动实验,把强化学习中"只看 reward"的盲目搜索,升级为"声明预期→验证预期"的可审计演化,显著降低了稀疏反馈带来的方差。
https://arxiv.org/abs/2405.15793
openai.com — Introducing Codex
https://arxiv.org/abs/2310.06770
https://www.tbench.ai/
https://arxiv.org/abs/2402.03300
https://arxiv.org/abs/2604.08224
docs.anthropic.com — MCP
nature.com — Mastering the game of Go
- Terminal-Bench 2:10 次 AHE 迭代后 Pass@1 69.7% → 77.0%(+7.3pp),超过 Codex-CLI 的 71.9%。这是在同一基模型下,仅靠 Harness 自演化带来的纯工程红利。
- SWE-bench-verified:综合成功率高于初始 seed Harness,同时 Token 消耗减少 12%。说明演化不是"加料堆量",而是真正削减了冗余组件。
- 跨模型家族稳定性:在三个其它模型家族上增益 +5.1 ~ +10.1 pp,证明 AHE 演化出的 Harness 不是只对一个模型过拟合,而是捕捉到了跨模型的结构性优化。
- 工程成本:百万 Token 轨迹 → 分层证据语料的蒸馏成本可忽略,使得整个自演化闭环在商用云上可支撑日更式迭代,这是之前 RL 式方法无法达到的性价比。
本文是迄今为止"Harness 本身如何被自动优化"最扎实的工作,直接给出了一个可落地的工程模板。对你而言,最值得借鉴的是"三层可观测性"框架——未来搭建任何评估 Harness 都可以套用这三个支柱作为设计原则,而不是只做"工具 + 环境 + Prompt"的朴素组合。特别是"决策可观测性(每次编辑附带预期并验证)"值得推广到所有评估系统设计中。
AHE 的"自动演化 Harness"是一把双刃剑——若被恶意利用,Agent 可能自动"演化"出绕过安全边界的 Harness(例如通过修改工具 Schema 偷偷扩大权限)。这提示我们:Agent Skills Safety 的未来攻击面将包含"对 Harness 自身的投毒",需要在"组件可观测性"层面加入不可变策略(immutable policy)和数字签名,防止演化越过预设安全红线。
现有 Safety Benchmark(如 AgentHarm、HarmBench)假设 Harness 固定,只评估模型的"本质安全"。但 AHE 表明 Harness 可以被主动"微调",因此 Benchmark 必须把"Harness 可配置空间"也纳入评估维度——同一个模型在不同 Harness 下的安全性可能差距 20pp 以上。下一代 Safety Benchmark 应测量"Harness 演化的安全不变性"(Safety-under-Harness-Evolution)。
-
SemaClaw — Zhu et al. (2026) — A Step Towards General-Purpose Personal AI Agents through Harness Engineering(Harness Engineering 工程落地参考)
https://arxiv.org/abs/2604.11548 -
Externalization in LLM Agents — Zhou et al. (2026) — Harness Engineering 理论综述
https://arxiv.org/abs/2604.08224 -
AgentPulse — Gao et al. (2026) — 部署后连续多信号评估框架,与 AHE 的"演化期评估"形成互补
https://arxiv.org/abs/2604.24038
注:论文本身未在公开页面提供 GitHub 代码仓库,评估所用的 SWE-bench-verified 与 Terminal-Bench 2 均为开源基准。