2026-05-03 #1 · Safety Benchmark · Daily Paper Tracker

今日 Benchmark 方向候选评分对比（共 5 篇，均 2026-04 新增）

标题（简）	方向细分	来源	综合分
RedVLA: Physical Red Teaming for Vision-Language-Action Models今日选定	VLA 物理红队 + Guard 数据	arXiv 2026-04-24 (Peking Univ. Yang 组)	94
FlashRT: Efficient Red-Teaming for Long-Context LLMs	效率化红队算法	arXiv 2026-04-30	92
Training a General Purpose Automated Red Teaming Model	通用红队模型训练管线	arXiv 2026-04-24 (NVIDIA)	91
AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming	演化式红队 Agent	arXiv 2026-04-23	90
What Makes a Good Terminal-Agent Benchmark Task	Benchmark 任务设计指南	arXiv 2026-04-30	89

论文基本信息

作者Yuhao Zhang, Borong Zhang, Jiaming Fan, Jiachen Shen, Yishuai Cai, Yaodong Yang, Jiaming Ji

机构Peking University (Yang Yaodong 组) · 中关村学院

发表状态arXiv 预印本 v1

提交时间2026-04-24

原文链接https://arxiv.org/abs/2604.22591

PDF 链接https://arxiv.org/pdf/2604.22591

分类cs.RO / cs.AI

项目主页redvla.github.io

一句话核心贡献

      首个面向 VLA（视觉-语言-动作）模型的物理红队框架：10 次迭代内 ASR 达 95.5%，附带基于红队数据训练的 SimpleVLA-Guard 防线。
    

摘要（中文翻译）

Vision-Language-Action（VLA）模型走向真实部署，一直受制于"不可预测且不可逆的物理伤害"风险。然而，我们当前缺乏一种在部署前主动检测物理安全风险的有效机制。为了补上这一空缺，我们提出 RedVLA：首个面向 VLA 模型物理安全的红队框架。

我们用两阶段流程系统性地暴露不安全行为：
(I) Risk Scenario Synthesis（风险场景合成）——构造一个有效、任务可行的初始风险场景。具体做法：从正常轨迹中识别"关键交互区域"，把风险因素（risk factor）布置到这些区域内，让它与 VLA 的执行流纠缠并触发目标不安全行为。
(II) Risk Amplification（风险放大）——保证在异构模型间稳定触发。它以轨迹特征为引导，通过无梯度优化反复细化风险因素的状态，直到目标不安全行为被稳定激发。

在 6 个代表性 VLA 模型上的实验表明，RedVLA 能够挖掘出多样化的不安全行为，10 次优化迭代内 Attack Success Rate (ASR) 最高达到 95.5%。我们进一步基于 RedVLA 合成数据训练了轻量级 SimpleVLA-Guard 作为部署侧 safety guard。数据、资产与代码在 redvla.github.io 公开。

核心内容解读

解决了什么问题：VLA 模型（代表作：RT-2、OpenVLA、π0、GR00T）已经在仿真到真机之间的界限越来越模糊，越来越多机构在实机部署——但物理世界的 safety 有一个数字世界没有的特性：不可回滚。数字 agent 把文件删了还能从备份恢复，机器人把架子撞倒砸到人就真的砸到了。过去一年的 safety 工作绝大部分在 text-only / computer-use 层面，物理层面的红队研究几乎一片空白。本文是第一篇正儿八经把"物理红队"作为独立 benchmark 范畴拿出来做的工作。

核心方法——两阶段红队 pipeline：

阶段	技术手法	在 VLA 语境中的意义
Stage I: Risk Scenario Synthesis	从 benign 轨迹抓取"关键交互区域"（夹爪路径 / 接触点 / 工件交接点），把 risk factor 精确放置在这些区域	保证生成的风险场景对原任务依然可行，避免"红队场景根本不会出现"这一常见诟病
Stage II: Risk Amplification	无梯度优化：用 trajectory features 作评分函数，迭代微调 risk factor 状态（位置 / 角度 / 质量 / 摩擦）直到目标不安全行为稳定触发	把"偶发失败"变成"可复现攻击"，为后续评估/防御训练提供稳定信号
Output: SimpleVLA-Guard	用 RedVLA 合成数据训练一个轻量守门模型	形成"攻击 ↔ 防御"闭环，红队不只为报警

在 benchmark 视角的新贡献： 1. 第一次把物理 ASR 作为 VLA safety 的核心指标引入——95.5% 的数字说明当前前沿 VLA 模型在物理层面几乎毫无 safety margin。 2. 提出"关键交互区域"这个概念，为物理红队提供了可扩展的参数化框架，下游任何 VLA benchmark 都可以借用这一范式。 3. 从"只测不治"走到"红队即训练数据"——SimpleVLA-Guard 展示了红队数据反哺 safety 模型的完整循环。

与今日 Harness 方向 Terminal Wrench 的对照：Terminal Wrench 做的是"文本 agent 的 reward hack 数据集"，RedVLA 做的是"物理 agent 的 risk scenario 数据集"——两者形成一个完整对比：数字世界漏洞 vs 物理世界漏洞。二者共同指出：真正的 safety 评估必须是 task-specific 的轨迹数据集，而不是静态问答题。

与 General Red Teaming Model (2604.23067) / FlashRT (2604.28157) 的关系：后两者沿"文本红队 / LLM 红队"主线做效率和泛化；RedVLA 是把红队范式成功"跨模态迁移"到物理域的第一个样本。这提示社区：未来 benchmark 不应只有文字攻击题，而需要覆盖 text / code / multimodal / physical 全谱的红队语料。

本文引用的关键文献（附链接）

OpenVLA (2024) — An Open-Source Vision-Language-Action Model（被测代表模型）
https://arxiv.org/abs/2406.09246

Brohan et al. (2023) — RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control（VLA 范式奠基）
https://arxiv.org/abs/2307.15818

Ji, Yang et al. (2023) — Safe RLHF: Safe Reinforcement Learning from Human Feedback（同组 safety alignment 基础）
https://arxiv.org/abs/2310.12773

Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming（文本红队对照）
https://arxiv.org/abs/2402.04249

Figure AI / Physical Intelligence (2024) — π0: A Vision-Language-Action Flow Model（代表 VLA）
https://arxiv.org/abs/2410.24164

Padmakumar et al. (2026) — Training a General Purpose Automated Red Teaming Model（今日对照候选）
https://arxiv.org/abs/2604.23067

核心数据亮点

6 个前沿 VLA 模型 × 10 次迭代：RedVLA 在多个主流 VLA 模型上稳定把 ASR 推到 95.5%，证明物理 safety 漏洞不是某模型特例。
"关键交互区域"作为参数化风险空间：第一个把物理红队规约为一个"从 benign 轨迹反推关键区 → 植入风险因素"的自动化流程，使攻击可量化、可比较。
无梯度优化：放弃对 VLA 模型参数的访问假设，以轨迹特征为反馈信号做黑盒扰动——对闭源商用 VLA 同样适用。
SimpleVLA-Guard：用红队数据回训的轻量 guard，证明红队不是只产出 benchmark 分数，更是 safety 训练的第一手监督数据来源。

对你三个研究方向的启发

Harness Engineering

物理 agent 的 harness 必须和数字 agent 分家。RedVLA 指出：物理 harness 的评估单元不能是 prompt 对，而必须是 (初始场景, 风险因素, 目标轨迹)。这会对未来 Harness 工具链（SemaClaw / AHE / AgentFlow）提出一种新诉求：harness 要能描述"物理初始状态"这一类 task context。跟今日 Harness Terminal Wrench（文本 reward hack 数据集）合起来，形成"harness 可信度评估在数字与物理两个层面的 co-benchmark"。

Agent Skills Safety

把"技能 safety"的视野从软件扩展到机器人——而且不是象征意义的扩展，而是完整的红队 → guard 闭环。和今日 Human-Guided Harm Recovery（post-execution 偏好恢复）联读：数字侧讲"出错了如何优雅恢复"，物理侧讲"出错不可恢复所以得先把错压下去"——两者共同描绘了一张按可逆性分级的 safety 框架。未来 Agent Skills Safety 应按 reversibility 把任务分层，高不可逆性场景（物理 / 金融 / 生医）采用 RedVLA 路线，高可逆性场景采用 Harm Recovery 路线。

Safety Benchmark

这是 benchmark 社区真正需要的一次"跨模态补票"。过去 HarmBench / SafetyBench / TrustLLM 清一色文本；RedVLA 补上了物理这块版图。推荐整合思路：把 RedVLA 的 risk scenario + ASR 作为"benchmark 的 Physical Track"加入现有统一 safety 评估套件（如 AIR-Bench 或 CarryOnBench 的扩展）。此外 RedVLA 开放数据 + SimpleVLA-Guard 的做法值得所有 red-team benchmark 借鉴——红队产物必须具备"反哺防御模型"的可用性，否则就是一次性评估。

RedVLA：首个 Vision-Language-Action 模型的物理红队框架——ASR 高达 95.5%，并附轻量级 SimpleVLA-Guard 守门