| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| VeRO: An Evaluation Harness for Agents to Optimize Agents今日选定 | Agent 优化 Agent 的评测 Harness | arXiv 2026-02-25 (Ursekar et al., ServiceNow Research) | 93 |
| From Guidelines to Guarantees: A Graph-Based Evaluation Harness for Domain-Specific LLMs | 领域特定 harness(临床指南) | arXiv 2025-08-28 | 88 |
| vla-eval: 统一 VLA 评估 Harness(已归档 04-29 #2) | VLA 评估 harness | arXiv 2026-03-14 v2 | — |
| Copilot Evaluation Harness | IDE Copilot 评估(旧文) | arXiv 2024-02-22 | 76 |
编码 Agent 一个重要的新兴应用是 "Agent 优化"——通过"改代码—运行—评估"的循环,逐步改进目标 Agent。尽管该任务越来越重要,社区对"编码 Agent 在这类任务上到底表现如何"缺乏系统性理解。Agent 优化与传统软件工程有根本区别:目标 Agent 把确定性代码与随机 LLM 补全交错,既需要结构化地捕获中间推理,又要关联下游执行结果。
为此,作者提出 VERO(Versioning, Rewards, and Observations),它提供:(1) 一个可复现的评测 harness,包含版本化 Agent 快照、预算受控的评估、以及结构化执行轨迹;(2) 一套 benchmark 套件,提供若干目标 Agent、任务,以及参考评估流程。借助 VERO,他们做了一项实证研究——比较了多种优化器配置在不同任务上的表现,分析了"哪些修改可以稳定提升目标 Agent 性能"。作者公开 VERO,期望把"Agent 优化"变成编码 Agent 的核心能力进行研究。
解决了什么问题: 最近两个月 Harness 方向的关键议题不断推进——从 AHE (2604.25850)"观测驱动的 Harness 自动演化",到 Last Harness (2604.21003)"Meta-Evolution"两层循环,再到 Terminal Wrench (2604.17596)"评测 harness 本身的可信度"。但它们都缺一张公开 benchmark 来回答:"优化器改了 Agent 之后,到底有没有变好?变好了多少?哪个改动起了作用?" VERO 正是把这个问题做成了可复现、可比较、可溯源的评测基础设施。
三件关键部件(也是论文名 VERO 的由来):
| 部件 | 具体做法 | 为什么重要 |
|---|---|---|
| V —— Versioning(版本化) | 把"目标 Agent"存成带版本快照;每轮优化都可回溯到精确前驱 | 解决"评估时改动不再是改动本身"的飘移;让 A/B 比较可靠 |
| R —— Rewards(奖励/预算) | 预算受控评估:限制调用次数、token、wall-clock;控制噪声带来的假阳性 | 保证优化实验在可重复成本下对比,防止"多跑几次就赢" |
| O —— Observations(观测) | 结构化执行轨迹:同时保留推理链(stochastic LLM)和执行痕迹(deterministic code) | 区分"是 Agent 思考变好"还是"是工具调用变好",便于 credit assignment |
Benchmark 套件: VERO 附带一组目标 Agent × 任务的参考对,以及每个任务的"参考评估流程"。目标 Agent 并非单一 fixed agent,而是覆盖不同 baseline——这使得"同一个优化器在不同 seed agent 上是否有可迁移的改进"成了一个可直接度量的问题。
与现有工作的核心差异:
- 对比 lm-evaluation-harness / OpenAI evals:后者都是"给模型打分"。VERO 评的是"优化器改完 Agent 以后的 Agent"——多了一层动作对象的递归,也因此需要完全不同的 harness 原语。
- 对比 AHE / Last Harness:AHE 和 Last Harness 给出了"演化循环"本身的设计(如何自动改 harness / 如何 meta-evolve)。VERO 则在循环外提供了"评判这些演化算法的裁判"。少了 VERO,Meta-Evolution 的比较只能靠各家自报 pass@1。
- 对比 Terminal Wrench:Terminal Wrench 回答"harness 能不能被骗";VERO 回答"把 harness 改一下,它变好了没有"。两者是 harness-信度工具链的两块拼图。
实证研究——哪类修改稳定有用: 文中用 VERO 系统性比较优化器配置,分析哪些编辑类型(prompt 重写、工具封装、错误恢复分支增加等)在多个任务上可复现地带来性能提升。这为"有原则地构造 Meta-Evolution 的搜索空间"提供了第一份实证参考。
github.com/EleutherAI/lm-evaluation-harness
github.com/openai/evals
https://arxiv.org/abs/2310.06770
github.com/laude-institute/terminal-bench
https://arxiv.org/abs/2604.25850
https://arxiv.org/abs/2604.21003
https://arxiv.org/abs/2604.17596
- Versioned 快照 × 预算 × 结构化轨迹——三项原语全到位。这是第一次把"优化 Agent 的 Agent"所需的 harness 原语抽象清楚——版本化解决"改动可溯源"、预算控制解决"噪声假阳"、结构化观测解决"credit assignment"。
- "Agent 优化"与"软件工程"本质不同:VERO 明确指出目标 Agent 的行为是 deterministic code + stochastic LLM completion 的交错,因此评估需要同时捕获推理链与执行痕迹,而不是像 SWE-bench 那样只看最终 patch。
- 多 baseline 目标 Agent × 多任务:让"优化器是否可迁移"第一次成为可测量问题——避免"某优化器只在某一个 agent 上好看"的樱桃采摘。
- 公开 VERO:作者明确声明发布 VERO,把"Agent 优化"当作编码 Agent 的一类核心能力推进为开放研究问题。
VERO 把 Harness 研究从"我如何搭一个更好的 harness"升级到"我如何评价一个 harness 优化算法"。这正是 AHE / Last Harness 这条 Meta-Evolution 主线缺的"回归测试平台"。建议:后续 Harness 论文若要声称"自动演化提升了 X%",应该在 VERO 上跑一遍作为 anchor;否则 X% 只是自报数。把 VERO 和 Terminal Wrench (2604.17596) 绑定做成"双指标"——前者考核"变好了没",后者考核"是否引入新 reward-hack"——harness 社区才算有了工业级评审体系。
Agent 优化场景是 Agent Skills Safety 的放大器:当一个 Agent 被允许"修改另一个 Agent",它就等于在写 新的技能。VERO 的版本化 + 结构化轨迹恰好给安全侧留了"可审计"的接口——对齐研究可以把 "post-edit Agent 是否保留原安全边界"当作新的 evaluation axis 插入 VERO,构建"Optimization-Preserves-Safety"基线。这和今天 agent-safety 方向的 Symbolic Guardrails (2604.15579)"policy-level 可保证安全"天然互补:VERO 管"功能变化的可测量",Symbolic Guardrails 管"安全约束的可保持"。
Benchmark 社区长期忽视了一个维度:"Benchmark 是否足以评估优化算法"。VERO 的出现提示我们:未来 Safety Benchmark 可能需要两种形态——一种评"模型/Agent",一种评"Agent-编辑器"。今天的 SafetyALFRED (2604.19638) 做了前者(embodied 安全),如果要做后者,就要求"评估工具本身能跟上优化循环的速度"——这和 VERO 的预算控制、版本化思想是同构命题。
- AHE: Agentic Harness Engineering — Lin, Liu et al. (2026) — 可观测性驱动的 coding agent harness 自动演化
https://arxiv.org/abs/2604.25850 - The Last Harness You'll Ever Build — Seong, Yin, Zhang (2026) — 两层 Meta-Evolution 循环
https://arxiv.org/abs/2604.21003 - Terminal Wrench — Bercovich et al. (2026) — Harness 可信度诊断数据集
https://arxiv.org/abs/2604.17596 - SWE-bench — Jimenez et al. (2023) — 真实 GitHub issue 评估基准
https://arxiv.org/abs/2310.06770