2026-05-04 #1 · Harness Engineering

今日 Harness 方向候选评分对比（共 4 篇候选）

标题（简）	方向细分	来源	综合分
VeRO: An Evaluation Harness for Agents to Optimize Agents今日选定	Agent 优化 Agent 的评测 Harness	arXiv 2026-02-25 (Ursekar et al., ServiceNow Research)	93
From Guidelines to Guarantees: A Graph-Based Evaluation Harness for Domain-Specific LLMs	领域特定 harness（临床指南）	arXiv 2025-08-28	88
vla-eval: 统一 VLA 评估 Harness（已归档 04-29 #2）	VLA 评估 harness	arXiv 2026-03-14 v2	—
Copilot Evaluation Harness	IDE Copilot 评估（旧文）	arXiv 2024-02-22	76

论文基本信息

英文标题VeRO: An Evaluation Harness for Agents to Optimize Agents

中文标题VeRO：一种用于"让 Agent 去优化 Agent"的评测 Harness

作者Varun Ursekar, Apaar Shanker, Veronica Chatrath, Yuan Xue, Sam Denton

发表状态arXiv 预印本 v1

提交时间2026-02-25

arXiv 链接https://arxiv.org/abs/2602.22480

PDF 链接https://arxiv.org/pdf/2602.22480

分类cs.SE / cs.AI / cs.LG

机构ServiceNow Research（VERO 于论文中声明开源）

项目资源arXiv 2602.22480（论文中指明 release VERO）

一句话核心贡献

      首个把"Agent 去改 Agent"做成可复现 benchmark：版本化快照 + 预算受控评估 + 结构化轨迹，为 Meta-Evolution 研究补上客观量尺。
    

摘要（中文翻译，忠实原文）

编码 Agent 一个重要的新兴应用是 "Agent 优化"——通过"改代码—运行—评估"的循环，逐步改进目标 Agent。尽管该任务越来越重要，社区对"编码 Agent 在这类任务上到底表现如何"缺乏系统性理解。Agent 优化与传统软件工程有根本区别：目标 Agent 把确定性代码与随机 LLM 补全交错，既需要结构化地捕获中间推理，又要关联下游执行结果。

为此，作者提出 VERO（Versioning, Rewards, and Observations），它提供：(1) 一个可复现的评测 harness，包含版本化 Agent 快照、预算受控的评估、以及结构化执行轨迹；(2) 一套 benchmark 套件，提供若干目标 Agent、任务，以及参考评估流程。借助 VERO，他们做了一项实证研究——比较了多种优化器配置在不同任务上的表现，分析了"哪些修改可以稳定提升目标 Agent 性能"。作者公开 VERO，期望把"Agent 优化"变成编码 Agent 的核心能力进行研究。

核心内容解读（背景·方法·差异）

解决了什么问题： 最近两个月 Harness 方向的关键议题不断推进——从 AHE (2604.25850)"观测驱动的 Harness 自动演化"，到 Last Harness (2604.21003)"Meta-Evolution"两层循环，再到 Terminal Wrench (2604.17596)"评测 harness 本身的可信度"。但它们都缺一张公开 benchmark 来回答："优化器改了 Agent 之后，到底有没有变好？变好了多少？哪个改动起了作用？" VERO 正是把这个问题做成了可复现、可比较、可溯源的评测基础设施。

三件关键部件（也是论文名 VERO 的由来）：

部件	具体做法	为什么重要
V —— Versioning（版本化）	把"目标 Agent"存成带版本快照；每轮优化都可回溯到精确前驱	解决"评估时改动不再是改动本身"的飘移；让 A/B 比较可靠
R —— Rewards（奖励/预算）	预算受控评估：限制调用次数、token、wall-clock；控制噪声带来的假阳性	保证优化实验在可重复成本下对比，防止"多跑几次就赢"
O —— Observations（观测）	结构化执行轨迹：同时保留推理链（stochastic LLM）和执行痕迹（deterministic code）	区分"是 Agent 思考变好"还是"是工具调用变好"，便于 credit assignment

Benchmark 套件： VERO 附带一组目标 Agent × 任务的参考对，以及每个任务的"参考评估流程"。目标 Agent 并非单一 fixed agent，而是覆盖不同 baseline——这使得"同一个优化器在不同 seed agent 上是否有可迁移的改进"成了一个可直接度量的问题。

与现有工作的核心差异：

对比 lm-evaluation-harness / OpenAI evals：后者都是"给模型打分"。VERO 评的是"优化器改完 Agent 以后的 Agent"——多了一层动作对象的递归，也因此需要完全不同的 harness 原语。
对比 AHE / Last Harness：AHE 和 Last Harness 给出了"演化循环"本身的设计（如何自动改 harness / 如何 meta-evolve）。VERO 则在循环外提供了"评判这些演化算法的裁判"。少了 VERO，Meta-Evolution 的比较只能靠各家自报 pass@1。
对比 Terminal Wrench：Terminal Wrench 回答"harness 能不能被骗"；VERO 回答"把 harness 改一下，它变好了没有"。两者是 harness-信度工具链的两块拼图。

实证研究——哪类修改稳定有用： 文中用 VERO 系统性比较优化器配置，分析哪些编辑类型（prompt 重写、工具封装、错误恢复分支增加等）在多个任务上可复现地带来性能提升。这为"有原则地构造 Meta-Evolution 的搜索空间"提供了第一份实证参考。

本文引用 / 对齐的关键文献（附链接）

EleutherAI — lm-evaluation-harness（静态模型评估 harness 事实标准）
github.com/EleutherAI/lm-evaluation-harness

OpenAI — Evals（另一类广泛使用的评测库）
github.com/openai/evals

Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
https://arxiv.org/abs/2310.06770

Terminal-Bench Community — Terminal-Bench（编码 Agent 的复杂环境评估）
github.com/laude-institute/terminal-bench

Lin, Liu et al. (2026) — AHE: Agentic Harness Engineering（harness 自动演化）
https://arxiv.org/abs/2604.25850

Seong, Yin, Zhang (2026) — The Last Harness You'll Ever Build（Meta-Evolution Loop）
https://arxiv.org/abs/2604.21003

Bercovich et al. (2026) — Terminal Wrench: Reward-Hackable Environments
https://arxiv.org/abs/2604.17596

核心数据亮点 / 关键论点

Versioned 快照 × 预算 × 结构化轨迹——三项原语全到位。这是第一次把"优化 Agent 的 Agent"所需的 harness 原语抽象清楚——版本化解决"改动可溯源"、预算控制解决"噪声假阳"、结构化观测解决"credit assignment"。
"Agent 优化"与"软件工程"本质不同：VERO 明确指出目标 Agent 的行为是 deterministic code + stochastic LLM completion 的交错，因此评估需要同时捕获推理链与执行痕迹，而不是像 SWE-bench 那样只看最终 patch。
多 baseline 目标 Agent × 多任务：让"优化器是否可迁移"第一次成为可测量问题——避免"某优化器只在某一个 agent 上好看"的樱桃采摘。
公开 VERO：作者明确声明发布 VERO，把"Agent 优化"当作编码 Agent 的一类核心能力推进为开放研究问题。

对你三个研究方向的启发

Harness Engineering

VERO 把 Harness 研究从"我如何搭一个更好的 harness"升级到"我如何评价一个 harness 优化算法"。这正是 AHE / Last Harness 这条 Meta-Evolution 主线缺的"回归测试平台"。建议：后续 Harness 论文若要声称"自动演化提升了 X%"，应该在 VERO 上跑一遍作为 anchor；否则 X% 只是自报数。把 VERO 和 Terminal Wrench (2604.17596) 绑定做成"双指标"——前者考核"变好了没"，后者考核"是否引入新 reward-hack"——harness 社区才算有了工业级评审体系。

Agent Skills Safety

Agent 优化场景是 Agent Skills Safety 的放大器：当一个 Agent 被允许"修改另一个 Agent"，它就等于在写 新的技能。VERO 的版本化 + 结构化轨迹恰好给安全侧留了"可审计"的接口——对齐研究可以把 "post-edit Agent 是否保留原安全边界"当作新的 evaluation axis 插入 VERO，构建"Optimization-Preserves-Safety"基线。这和今天 agent-safety 方向的 Symbolic Guardrails (2604.15579)"policy-level 可保证安全"天然互补：VERO 管"功能变化的可测量"，Symbolic Guardrails 管"安全约束的可保持"。

Safety Benchmark

Benchmark 社区长期忽视了一个维度："Benchmark 是否足以评估优化算法"。VERO 的出现提示我们：未来 Safety Benchmark 可能需要两种形态——一种评"模型/Agent"，一种评"Agent-编辑器"。今天的 SafetyALFRED (2604.19638) 做了前者（embodied 安全），如果要做后者，就要求"评估工具本身能跟上优化循环的速度"——这和 VERO 的预算控制、版本化思想是同构命题。

VeRO：第一个面向"Agent 优化 Agent"任务的可复现评测 Harness——给 Meta-Evolution 补上量尺