← 总导航 / Harness Engineering / 2026-05-04 #1
2026 年 5 月 4 日 · Harness Engineering · Agent Optimization Harness · 为"自动改 Agent"造尺子

VeRO:第一个面向"Agent 优化 Agent"任务的可复现评测 Harness——给 Meta-Evolution 补上量尺

VeRO: An Evaluation Harness for Agents to Optimize Agents
综合 93 分 相关度 9.9 来源质量 8.5 近期影响力 8.5 新颖性 9.5 开源复现 9.5
今日 Harness 方向候选评分对比(共 4 篇候选)
标题(简)方向细分来源综合分
VeRO: An Evaluation Harness for Agents to Optimize Agents今日选定 Agent 优化 Agent 的评测 Harness arXiv 2026-02-25 (Ursekar et al., ServiceNow Research) 93
From Guidelines to Guarantees: A Graph-Based Evaluation Harness for Domain-Specific LLMs 领域特定 harness(临床指南) arXiv 2025-08-28 88
vla-eval: 统一 VLA 评估 Harness(已归档 04-29 #2) VLA 评估 harness arXiv 2026-03-14 v2
Copilot Evaluation Harness IDE Copilot 评估(旧文) arXiv 2024-02-22 76
论文基本信息
VeRO: An Evaluation Harness for Agents to Optimize Agents
VeRO:一种用于"让 Agent 去优化 Agent"的评测 Harness
Varun Ursekar, Apaar Shanker, Veronica Chatrath, Yuan Xue, Sam Denton
arXiv 预印本 v1
2026-02-25
cs.SE / cs.AI / cs.LG
ServiceNow Research(VERO 于论文中声明开源)
一句话核心贡献
首个把"Agent 去改 Agent"做成可复现 benchmark:版本化快照 + 预算受控评估 + 结构化轨迹,为 Meta-Evolution 研究补上客观量尺。
摘要(中文翻译,忠实原文)

编码 Agent 一个重要的新兴应用是 "Agent 优化"——通过"改代码—运行—评估"的循环,逐步改进目标 Agent。尽管该任务越来越重要,社区对"编码 Agent 在这类任务上到底表现如何"缺乏系统性理解。Agent 优化与传统软件工程有根本区别:目标 Agent 把确定性代码随机 LLM 补全交错,既需要结构化地捕获中间推理,又要关联下游执行结果。

为此,作者提出 VERO(Versioning, Rewards, and Observations),它提供:(1) 一个可复现的评测 harness,包含版本化 Agent 快照预算受控的评估、以及结构化执行轨迹;(2) 一套 benchmark 套件,提供若干目标 Agent、任务,以及参考评估流程。借助 VERO,他们做了一项实证研究——比较了多种优化器配置在不同任务上的表现,分析了"哪些修改可以稳定提升目标 Agent 性能"。作者公开 VERO,期望把"Agent 优化"变成编码 Agent 的核心能力进行研究。

核心内容解读(背景·方法·差异)

解决了什么问题: 最近两个月 Harness 方向的关键议题不断推进——从 AHE (2604.25850)"观测驱动的 Harness 自动演化",到 Last Harness (2604.21003)"Meta-Evolution"两层循环,再到 Terminal Wrench (2604.17596)"评测 harness 本身的可信度"。但它们都缺一张公开 benchmark 来回答:"优化器改了 Agent 之后,到底有没有变好?变好了多少?哪个改动起了作用?" VERO 正是把这个问题做成了可复现、可比较、可溯源的评测基础设施。

三件关键部件(也是论文名 VERO 的由来):

部件具体做法为什么重要
V —— Versioning(版本化)把"目标 Agent"存成带版本快照;每轮优化都可回溯到精确前驱解决"评估时改动不再是改动本身"的飘移;让 A/B 比较可靠
R —— Rewards(奖励/预算)预算受控评估:限制调用次数、token、wall-clock;控制噪声带来的假阳性保证优化实验在可重复成本下对比,防止"多跑几次就赢"
O —— Observations(观测)结构化执行轨迹:同时保留推理链(stochastic LLM)和执行痕迹(deterministic code)区分"是 Agent 思考变好"还是"是工具调用变好",便于 credit assignment

Benchmark 套件: VERO 附带一组目标 Agent × 任务的参考对,以及每个任务的"参考评估流程"。目标 Agent 并非单一 fixed agent,而是覆盖不同 baseline——这使得"同一个优化器在不同 seed agent 上是否有可迁移的改进"成了一个可直接度量的问题。

与现有工作的核心差异:

实证研究——哪类修改稳定有用: 文中用 VERO 系统性比较优化器配置,分析哪些编辑类型(prompt 重写、工具封装、错误恢复分支增加等)在多个任务上可复现地带来性能提升。这为"有原则地构造 Meta-Evolution 的搜索空间"提供了第一份实证参考。

本文引用 / 对齐的关键文献(附链接)
EleutherAI — lm-evaluation-harness(静态模型评估 harness 事实标准)
github.com/EleutherAI/lm-evaluation-harness
OpenAI — Evals(另一类广泛使用的评测库)
github.com/openai/evals
Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
https://arxiv.org/abs/2310.06770
Terminal-Bench Community — Terminal-Bench(编码 Agent 的复杂环境评估)
github.com/laude-institute/terminal-bench
Lin, Liu et al. (2026) — AHE: Agentic Harness Engineering(harness 自动演化)
https://arxiv.org/abs/2604.25850
Seong, Yin, Zhang (2026) — The Last Harness You'll Ever Build(Meta-Evolution Loop)
https://arxiv.org/abs/2604.21003
Bercovich et al. (2026) — Terminal Wrench: Reward-Hackable Environments
https://arxiv.org/abs/2604.17596
核心数据亮点 / 关键论点
对你三个研究方向的启发
Harness Engineering

VERO 把 Harness 研究从"我如何搭一个更好的 harness"升级到"我如何评价一个 harness 优化算法"。这正是 AHE / Last Harness 这条 Meta-Evolution 主线缺的"回归测试平台"。建议:后续 Harness 论文若要声称"自动演化提升了 X%",应该在 VERO 上跑一遍作为 anchor;否则 X% 只是自报数。把 VERO 和 Terminal Wrench (2604.17596) 绑定做成"双指标"——前者考核"变好了没",后者考核"是否引入新 reward-hack"——harness 社区才算有了工业级评审体系。

Agent Skills Safety

Agent 优化场景是 Agent Skills Safety 的放大器:当一个 Agent 被允许"修改另一个 Agent",它就等于在写 新的技能。VERO 的版本化 + 结构化轨迹恰好给安全侧留了"可审计"的接口——对齐研究可以把 "post-edit Agent 是否保留原安全边界"当作新的 evaluation axis 插入 VERO,构建"Optimization-Preserves-Safety"基线。这和今天 agent-safety 方向的 Symbolic Guardrails (2604.15579)"policy-level 可保证安全"天然互补:VERO 管"功能变化的可测量",Symbolic Guardrails 管"安全约束的可保持"。

Safety Benchmark

Benchmark 社区长期忽视了一个维度:"Benchmark 是否足以评估优化算法"。VERO 的出现提示我们:未来 Safety Benchmark 可能需要两种形态——一种评"模型/Agent",一种评"Agent-编辑器"。今天的 SafetyALFRED (2604.19638) 做了前者(embodied 安全),如果要做后者,就要求"评估工具本身能跟上优化循环的速度"——这和 VERO 的预算控制、版本化思想是同构命题。

相关延伸阅读
资源链接