← 总导航 / Harness Engineering / 2026-04-29 #2
2026 年 4 月 29 日 · Harness Engineering · VLA · Cross-Benchmark Evaluation

vla-eval:解耦模型推理与评测执行的统一 VLA 评估 Harness

vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
综合 92 分 相关度 9.8 来源质量 9.0 近期影响力 9.0 新颖性 8.5 开源复现 9.5
今日 Harness 方向候选评分对比(共 4 篇)
标题(简)方向细分来源综合分
vla-eval: A Unified Evaluation Harness…今日选定 Cross-Benchmark Harness arXiv 2026-03-14 / v2 2026-04-17 92
VeRO: An Evaluation Harness for Agents to Optimize Agents Agent Optimization Harness arXiv 2026-02-25 87
From Guidelines to Guarantees: Graph-Based Evaluation Harness… Domain-Specific Harness arXiv 2025-08-28 / v2 2026-03-24 80
Copilot Evaluation Harness… IDE Evaluation arXiv 2024-02-22 72
论文基本信息
Suhwan Choi, Yunsung Lee, Yubeen Park, Chris Dongjoo Kim, Ranjay Krishna, Dieter Fox, Youngjae Yu
Yonsei University / Allen Institute for AI (AI2) / University of Washington / NVIDIA
arXiv 预印本,cs.AI,v2 修订版
2026 年 3 月 14 日(v2:2026 年 4 月 17 日)
一句话核心贡献
用 WebSocket+msgpack 协议 + Docker 隔离,把"模型推理"与"benchmark 执行"彻底解耦,实现 14 个 VLA benchmark × 6 个模型的零成本全矩阵评测。
摘要(中文翻译)

视觉-语言-动作(VLA)模型越来越需要在多个仿真 benchmark 上被评测,但把每一个 benchmark 接入到评测 pipeline 都要解决:依赖冲突、评测协议未充分规定、以及需要逆向工程未文档化的预处理。随着模型数和 benchmark 数上升,这些负担让"全面评测"对多数团队变得不现实。

本文提出 vla-eval——一个开源的评估 harness,它通过 WebSocket + msgpack 协议和基于 Docker 的环境隔离,将模型推理与 benchmark 执行解耦。模型只要实现一个 predict() 方法即完成一次接入;benchmark 只要实现四个方法即完成一次接入;接入后,完整的"模型×benchmark"交叉评测矩阵即可自动运行。

框架当前支持 14 个仿真 benchmark 和 6 个模型服务端。通过 episode 分片并行和批量推理,最高可获得 47× 墙钟时间加速,可在约 18 分钟内完成 2 000 条 LIBERO episodes。作者还复现了 6 个 VLA 代码库在 3 个 benchmark 上的已发表分数,并系统记录了此前未被披露的若干陷阱。最终同时释放了一份汇总 17 个 benchmark、657 条已发表结果 的 VLA Leaderboard。

核心内容解读

解决了什么问题:VLA 社区面临的"评测碎片化"问题是 Harness Engineering 的典型痛点——每个 benchmark 的仿真环境、依赖、预处理、评判协议互不兼容,团队要么只评自己熟悉的 benchmark(结论偏颇),要么投入大量工程把所有 benchmark 拼起来(阻碍科研)。现有解决方案(通用 lm-eval-harness、OpenAI evals 等)是文本/推理导向,不适合需要实时仿真环境的具身 Agent 评测。

核心方法——三层解耦架构:

解耦手段接入成本
模型层WebSocket+msgpack 协议:模型服务端单独起进程/容器实现 predict() 单方法
Benchmark 层Docker 镜像封装各 benchmark 的仿真依赖,避免 numpy/CUDA/MuJoCo 版本冲突实现 4 个方法的标准接口
调度层Episode 分片并行 + 批量推理;leaderboard 自动聚合无需额外配置

与现有工作的关键区别:lm-evaluation-harness(EleutherAI)解决的是"文本模型×文本 benchmark"的统一问题,而 vla-eval 处理的是"带物理仿真的 embodied 评测"——这意味着 benchmark 本身是一个长期运行的环境,而非一次性的打分函数。论文的核心工程洞察是:协议层必须是实时双向通信(WebSocket),而不是传统的 request/response REST,因为仿真环境每步都要发 observation 并等 action。

价值不只是"好用":作者用 vla-eval 复现 6 个主流代码库在 3 个 benchmark 上的原始分数时,发现了多处此前未文档化的差异点(preprocessing 顺序、归一化系数、action chunk 长度),这些差异直接影响可比性。这是 Harness Engineering 最本质的学术价值——让"论文分数"变成可验证的东西。

本文引用的关键文献(附链接)
EleutherAI (2021/2023) — Language Model Evaluation Harness (lm-evaluation-harness) — 文本评测 harness 的事实标准
github.com/EleutherAI/lm-evaluation-harness
Liu et al. (2023) — LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
https://arxiv.org/abs/2306.03310
Kim et al. (2024) — OpenVLA: An Open-Source Vision-Language-Action Model
https://arxiv.org/abs/2406.09246
Brohan et al. (2023) — RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
https://arxiv.org/abs/2307.15818
Open X-Embodiment Collaboration (2023) — Open X-Embodiment: Robotic Learning Datasets and RT-X Models
https://arxiv.org/abs/2310.08864
Makoviychuk et al. (2021) — Isaac Gym: High Performance GPU-Based Physics Simulation for Robot Learning
https://arxiv.org/abs/2108.10470
Srivastava et al. (2023) — BEHAVIOR-1K: A Benchmark for Embodied AI with 1,000 Everyday Activities
https://arxiv.org/abs/2403.09227
Srivastava et al. (2022) — BIG-bench: Beyond the Imitation Game Benchmark
https://arxiv.org/abs/2206.04615
核心数据亮点
对你三个研究方向的启发
Harness Engineering

这是一个"工程落地比新方法更重要"的典型案例:贡献不是新 benchmark、也不是新模型,而是"协议 + 容器化 + 分片并行"三件套。它把 evaluation harness 的设计语言从"Python SDK"抬升到"跨进程/跨容器协议"。你做 Harness Engineering 研究时,应直接借用这一"协议抽象 + 最小接入方法数"的双轴——它同时适用于 coding agent harness、tool-use agent harness、computer-use agent harness。

Agent Skills Safety

WebSocket+Docker 的解耦模式天然带来隔离特性:benchmark 容器不能读模型容器的权重或缓存,模型不能直接访问 benchmark 的私有 eval 数据。这是对"benchmark 污染"和"逃逸攻击"的一种朴素但强力的机制防御。你研究 Agent Skills Safety 时,可把这种"容器边界即安全边界"的思想推广到 skill-level sandbox(每一个 skill 作为独立容器被调用)。

Safety Benchmark

论文揭示了评测科学的一个关键事实:不同代码库在同一 benchmark 上重现出的分数存在未文档化的预处理差异。这件事在 safety benchmark 上更严重(judge 配置、拒答策略、system prompt 都是未规范化的"暗参数")。你做 Safety Benchmark 研究时,可直接把 vla-eval 的"contract-first 四方法接口 + 全量复现档案"方法论迁过来,做一份"Safety Eval Harness"。

相关延伸阅读
资源链接