| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| vla-eval: A Unified Evaluation Harness…今日选定 | Cross-Benchmark Harness | arXiv 2026-03-14 / v2 2026-04-17 | 92 |
| VeRO: An Evaluation Harness for Agents to Optimize Agents | Agent Optimization Harness | arXiv 2026-02-25 | 87 |
| From Guidelines to Guarantees: Graph-Based Evaluation Harness… | Domain-Specific Harness | arXiv 2025-08-28 / v2 2026-03-24 | 80 |
| Copilot Evaluation Harness… | IDE Evaluation | arXiv 2024-02-22 | 72 |
视觉-语言-动作(VLA)模型越来越需要在多个仿真 benchmark 上被评测,但把每一个 benchmark 接入到评测 pipeline 都要解决:依赖冲突、评测协议未充分规定、以及需要逆向工程未文档化的预处理。随着模型数和 benchmark 数上升,这些负担让"全面评测"对多数团队变得不现实。
本文提出 vla-eval——一个开源的评估 harness,它通过 WebSocket + msgpack 协议和基于 Docker 的环境隔离,将模型推理与 benchmark 执行解耦。模型只要实现一个 predict() 方法即完成一次接入;benchmark 只要实现四个方法即完成一次接入;接入后,完整的"模型×benchmark"交叉评测矩阵即可自动运行。
框架当前支持 14 个仿真 benchmark 和 6 个模型服务端。通过 episode 分片并行和批量推理,最高可获得 47× 墙钟时间加速,可在约 18 分钟内完成 2 000 条 LIBERO episodes。作者还复现了 6 个 VLA 代码库在 3 个 benchmark 上的已发表分数,并系统记录了此前未被披露的若干陷阱。最终同时释放了一份汇总 17 个 benchmark、657 条已发表结果 的 VLA Leaderboard。
解决了什么问题:VLA 社区面临的"评测碎片化"问题是 Harness Engineering 的典型痛点——每个 benchmark 的仿真环境、依赖、预处理、评判协议互不兼容,团队要么只评自己熟悉的 benchmark(结论偏颇),要么投入大量工程把所有 benchmark 拼起来(阻碍科研)。现有解决方案(通用 lm-eval-harness、OpenAI evals 等)是文本/推理导向,不适合需要实时仿真环境的具身 Agent 评测。
核心方法——三层解耦架构:
| 层 | 解耦手段 | 接入成本 |
|---|---|---|
| 模型层 | WebSocket+msgpack 协议:模型服务端单独起进程/容器 | 实现 predict() 单方法 |
| Benchmark 层 | Docker 镜像封装各 benchmark 的仿真依赖,避免 numpy/CUDA/MuJoCo 版本冲突 | 实现 4 个方法的标准接口 |
| 调度层 | Episode 分片并行 + 批量推理;leaderboard 自动聚合 | 无需额外配置 |
与现有工作的关键区别:lm-evaluation-harness(EleutherAI)解决的是"文本模型×文本 benchmark"的统一问题,而 vla-eval 处理的是"带物理仿真的 embodied 评测"——这意味着 benchmark 本身是一个长期运行的环境,而非一次性的打分函数。论文的核心工程洞察是:协议层必须是实时双向通信(WebSocket),而不是传统的 request/response REST,因为仿真环境每步都要发 observation 并等 action。
价值不只是"好用":作者用 vla-eval 复现 6 个主流代码库在 3 个 benchmark 上的原始分数时,发现了多处此前未文档化的差异点(preprocessing 顺序、归一化系数、action chunk 长度),这些差异直接影响可比性。这是 Harness Engineering 最本质的学术价值——让"论文分数"变成可验证的东西。
github.com/EleutherAI/lm-evaluation-harness
https://arxiv.org/abs/2306.03310
https://arxiv.org/abs/2406.09246
https://arxiv.org/abs/2307.15818
https://arxiv.org/abs/2310.08864
https://arxiv.org/abs/2108.10470
https://arxiv.org/abs/2403.09227
https://arxiv.org/abs/2206.04615
- 覆盖度:支持 14 个 VLA 仿真 benchmark × 6 个模型服务端,论文明确声称这是目前 VLA 领域最大的统一 harness。
- 性能:通过 episode 分片并行 + 批量推理,取得 最高 47× 墙钟加速;2 000 条 LIBERO episodes 约 18 分钟跑完。
- 可复现性:复现 6 个 VLA 代码库在 3 个 benchmark 上的原始分数,并把此前未文档化的预处理差异(图像归一化、action 块长度等)系统整理。
- 生态沉淀:释放 VLA Leaderboard,聚合 17 个 benchmark、657 条已发表结果(在线页面),对社区具有显著基础设施价值。
这是一个"工程落地比新方法更重要"的典型案例:贡献不是新 benchmark、也不是新模型,而是"协议 + 容器化 + 分片并行"三件套。它把 evaluation harness 的设计语言从"Python SDK"抬升到"跨进程/跨容器协议"。你做 Harness Engineering 研究时,应直接借用这一"协议抽象 + 最小接入方法数"的双轴——它同时适用于 coding agent harness、tool-use agent harness、computer-use agent harness。
WebSocket+Docker 的解耦模式天然带来隔离特性:benchmark 容器不能读模型容器的权重或缓存,模型不能直接访问 benchmark 的私有 eval 数据。这是对"benchmark 污染"和"逃逸攻击"的一种朴素但强力的机制防御。你研究 Agent Skills Safety 时,可把这种"容器边界即安全边界"的思想推广到 skill-level sandbox(每一个 skill 作为独立容器被调用)。
论文揭示了评测科学的一个关键事实:不同代码库在同一 benchmark 上重现出的分数存在未文档化的预处理差异。这件事在 safety benchmark 上更严重(judge 配置、拒答策略、system prompt 都是未规范化的"暗参数")。你做 Safety Benchmark 研究时,可直接把 vla-eval 的"contract-first 四方法接口 + 全量复现档案"方法论迁过来,做一份"Safety Eval Harness"。
- VeRO — Ursekar et al. (2026) — An Evaluation Harness for Agents to Optimize Agents(coding agent 优化场景下的 harness,重点在"versioned snapshots + budget-controlled eval")
https://arxiv.org/abs/2602.22480 - Graph-Based Evaluation Harness — Lundin et al. (2025/2026) — 将临床指南转化为知识图谱,动态生成评测题,解决"污染抗性 + 全覆盖"
https://arxiv.org/abs/2508.20810 - Copilot Evaluation Harness — Agarwal et al. (2024) — 微软发布的 IDE 场景 LLM 交互评测 harness
https://arxiv.org/abs/2402.14261