2026-04-29 #2 · Harness Engineering

今日 Harness 方向候选评分对比（共 4 篇）

标题（简）	方向细分	来源	综合分
vla-eval: A Unified Evaluation Harness…今日选定	Cross-Benchmark Harness	arXiv 2026-03-14 / v2 2026-04-17	92
VeRO: An Evaluation Harness for Agents to Optimize Agents	Agent Optimization Harness	arXiv 2026-02-25	87
From Guidelines to Guarantees: Graph-Based Evaluation Harness…	Domain-Specific Harness	arXiv 2025-08-28 / v2 2026-03-24	80
Copilot Evaluation Harness…	IDE Evaluation	arXiv 2024-02-22	72

论文基本信息

作者（共 7 位）Suhwan Choi, Yunsung Lee, Yubeen Park, Chris Dongjoo Kim, Ranjay Krishna, Dieter Fox, Youngjae Yu

机构Yonsei University / Allen Institute for AI (AI2) / University of Washington / NVIDIA

发表状态arXiv 预印本，cs.AI，v2 修订版

首次提交2026 年 3 月 14 日（v2：2026 年 4 月 17 日）

原文链接https://arxiv.org/abs/2603.13966

PDF 链接https://arxiv.org/pdf/2603.13966v2

DOI10.48550/arXiv.2603.13966

代码 / Leaderboardgithub.com/allenai/vla-evaluation-harness

一句话核心贡献

      用 WebSocket+msgpack 协议 + Docker 隔离，把"模型推理"与"benchmark 执行"彻底解耦，实现 14 个 VLA benchmark × 6 个模型的零成本全矩阵评测。
    

摘要（中文翻译）

视觉-语言-动作（VLA）模型越来越需要在多个仿真 benchmark 上被评测，但把每一个 benchmark 接入到评测 pipeline 都要解决：依赖冲突、评测协议未充分规定、以及需要逆向工程未文档化的预处理。随着模型数和 benchmark 数上升，这些负担让"全面评测"对多数团队变得不现实。

本文提出 vla-eval——一个开源的评估 harness，它通过 WebSocket + msgpack 协议和基于 Docker 的环境隔离，将模型推理与 benchmark 执行解耦。模型只要实现一个 predict() 方法即完成一次接入；benchmark 只要实现四个方法即完成一次接入；接入后，完整的"模型×benchmark"交叉评测矩阵即可自动运行。

框架当前支持 14 个仿真 benchmark 和 6 个模型服务端。通过 episode 分片并行和批量推理，最高可获得 47× 墙钟时间加速，可在约 18 分钟内完成 2 000 条 LIBERO episodes。作者还复现了 6 个 VLA 代码库在 3 个 benchmark 上的已发表分数，并系统记录了此前未被披露的若干陷阱。最终同时释放了一份汇总 17 个 benchmark、657 条已发表结果 的 VLA Leaderboard。

核心内容解读

解决了什么问题：VLA 社区面临的"评测碎片化"问题是 Harness Engineering 的典型痛点——每个 benchmark 的仿真环境、依赖、预处理、评判协议互不兼容，团队要么只评自己熟悉的 benchmark（结论偏颇），要么投入大量工程把所有 benchmark 拼起来（阻碍科研）。现有解决方案（通用 lm-eval-harness、OpenAI evals 等）是文本/推理导向，不适合需要实时仿真环境的具身 Agent 评测。

核心方法——三层解耦架构：

层	解耦手段	接入成本
模型层	WebSocket+msgpack 协议：模型服务端单独起进程/容器	实现 `predict()` 单方法
Benchmark 层	Docker 镜像封装各 benchmark 的仿真依赖，避免 numpy/CUDA/MuJoCo 版本冲突	实现 4 个方法的标准接口
调度层	Episode 分片并行 + 批量推理；leaderboard 自动聚合	无需额外配置

与现有工作的关键区别：lm-evaluation-harness（EleutherAI）解决的是"文本模型×文本 benchmark"的统一问题，而 vla-eval 处理的是"带物理仿真的 embodied 评测"——这意味着 benchmark 本身是一个长期运行的环境，而非一次性的打分函数。论文的核心工程洞察是：协议层必须是实时双向通信（WebSocket），而不是传统的 request/response REST，因为仿真环境每步都要发 observation 并等 action。

价值不只是"好用"：作者用 vla-eval 复现 6 个主流代码库在 3 个 benchmark 上的原始分数时，发现了多处此前未文档化的差异点（preprocessing 顺序、归一化系数、action chunk 长度），这些差异直接影响可比性。这是 Harness Engineering 最本质的学术价值——让"论文分数"变成可验证的东西。

本文引用的关键文献（附链接）

EleutherAI (2021/2023) — Language Model Evaluation Harness (lm-evaluation-harness) — 文本评测 harness 的事实标准
github.com/EleutherAI/lm-evaluation-harness

Liu et al. (2023) — LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
https://arxiv.org/abs/2306.03310

Kim et al. (2024) — OpenVLA: An Open-Source Vision-Language-Action Model
https://arxiv.org/abs/2406.09246

Brohan et al. (2023) — RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/abs/2307.15818

Open X-Embodiment Collaboration (2023) — Open X-Embodiment: Robotic Learning Datasets and RT-X Models
https://arxiv.org/abs/2310.08864

Makoviychuk et al. (2021) — Isaac Gym: High Performance GPU-Based Physics Simulation for Robot Learning
https://arxiv.org/abs/2108.10470

Srivastava et al. (2023) — BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities
https://arxiv.org/abs/2403.09227

Srivastava et al. (2022) — BIG-bench: Beyond the Imitation Game Benchmark
https://arxiv.org/abs/2206.04615

核心数据亮点

覆盖度：支持 14 个 VLA 仿真 benchmark × 6 个模型服务端，论文明确声称这是目前 VLA 领域最大的统一 harness。
性能：通过 episode 分片并行 + 批量推理，取得 最高 47× 墙钟加速；2 000 条 LIBERO episodes 约 18 分钟跑完。
可复现性：复现 6 个 VLA 代码库在 3 个 benchmark 上的原始分数，并把此前未文档化的预处理差异（图像归一化、action 块长度等）系统整理。
生态沉淀：释放 VLA Leaderboard，聚合 17 个 benchmark、657 条已发表结果（在线页面），对社区具有显著基础设施价值。

对你三个研究方向的启发

Harness Engineering

这是一个"工程落地比新方法更重要"的典型案例：贡献不是新 benchmark、也不是新模型，而是"协议 + 容器化 + 分片并行"三件套。它把 evaluation harness 的设计语言从"Python SDK"抬升到"跨进程/跨容器协议"。你做 Harness Engineering 研究时，应直接借用这一"协议抽象 + 最小接入方法数"的双轴——它同时适用于 coding agent harness、tool-use agent harness、computer-use agent harness。

Agent Skills Safety

WebSocket+Docker 的解耦模式天然带来隔离特性：benchmark 容器不能读模型容器的权重或缓存，模型不能直接访问 benchmark 的私有 eval 数据。这是对"benchmark 污染"和"逃逸攻击"的一种朴素但强力的机制防御。你研究 Agent Skills Safety 时，可把这种"容器边界即安全边界"的思想推广到 skill-level sandbox（每一个 skill 作为独立容器被调用）。

Safety Benchmark

论文揭示了评测科学的一个关键事实：不同代码库在同一 benchmark 上重现出的分数存在未文档化的预处理差异。这件事在 safety benchmark 上更严重（judge 配置、拒答策略、system prompt 都是未规范化的"暗参数"）。你做 Safety Benchmark 研究时，可直接把 vla-eval 的"contract-first 四方法接口 + 全量复现档案"方法论迁过来，做一份"Safety Eval Harness"。

vla-eval：解耦模型推理与评测执行的统一 VLA 评估 Harness