← 总导航 / Safety Benchmark / 2026-05-03 #1
2026 年 5 月 3 日 · Safety Benchmark · 物理红队 · VLA 模型

RedVLA:首个 Vision-Language-Action 模型的物理红队框架——ASR 高达 95.5%,并附轻量级 SimpleVLA-Guard 守门

RedVLA: Physical Red Teaming for Vision-Language-Action Models
综合 94 分 相关度 9.5 来源质量 9.2 近期影响力 9.2 新颖性 9.6 开源复现 9.6
今日 Benchmark 方向候选评分对比(共 5 篇,均 2026-04 新增)
标题(简)方向细分来源综合分
RedVLA: Physical Red Teaming for Vision-Language-Action Models今日选定 VLA 物理红队 + Guard 数据 arXiv 2026-04-24 (Peking Univ. Yang 组) 94
FlashRT: Efficient Red-Teaming for Long-Context LLMs 效率化红队算法 arXiv 2026-04-30 92
Training a General Purpose Automated Red Teaming Model 通用红队模型训练管线 arXiv 2026-04-24 (NVIDIA) 91
AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming 演化式红队 Agent arXiv 2026-04-23 90
What Makes a Good Terminal-Agent Benchmark Task Benchmark 任务设计指南 arXiv 2026-04-30 89
论文基本信息
Yuhao Zhang, Borong Zhang, Jiaming Fan, Jiachen Shen, Yishuai Cai, Yaodong Yang, Jiaming Ji
Peking University (Yang Yaodong 组) · 中关村学院
arXiv 预印本 v1
2026-04-24
cs.RO / cs.AI
redvla.github.io
一句话核心贡献
首个面向 VLA(视觉-语言-动作)模型的物理红队框架:10 次迭代内 ASR 达 95.5%,附带基于红队数据训练的 SimpleVLA-Guard 防线。
摘要(中文翻译)

Vision-Language-Action(VLA)模型走向真实部署,一直受制于"不可预测且不可逆的物理伤害"风险。然而,我们当前缺乏一种在部署前主动检测物理安全风险的有效机制。为了补上这一空缺,我们提出 RedVLA:首个面向 VLA 模型物理安全的红队框架。

我们用两阶段流程系统性地暴露不安全行为:
(I) Risk Scenario Synthesis(风险场景合成)——构造一个有效、任务可行的初始风险场景。具体做法:从正常轨迹中识别"关键交互区域",把风险因素(risk factor)布置到这些区域内,让它与 VLA 的执行流纠缠并触发目标不安全行为。
(II) Risk Amplification(风险放大)——保证在异构模型间稳定触发。它以轨迹特征为引导,通过无梯度优化反复细化风险因素的状态,直到目标不安全行为被稳定激发。

在 6 个代表性 VLA 模型上的实验表明,RedVLA 能够挖掘出多样化的不安全行为,10 次优化迭代内 Attack Success Rate (ASR) 最高达到 95.5%。我们进一步基于 RedVLA 合成数据训练了轻量级 SimpleVLA-Guard 作为部署侧 safety guard。数据、资产与代码在 redvla.github.io 公开。

核心内容解读

解决了什么问题:VLA 模型(代表作:RT-2、OpenVLA、π0、GR00T)已经在仿真到真机之间的界限越来越模糊,越来越多机构在实机部署——但物理世界的 safety 有一个数字世界没有的特性:不可回滚。数字 agent 把文件删了还能从备份恢复,机器人把架子撞倒砸到人就真的砸到了。过去一年的 safety 工作绝大部分在 text-only / computer-use 层面,物理层面的红队研究几乎一片空白。本文是第一篇正儿八经把"物理红队"作为独立 benchmark 范畴拿出来做的工作。

核心方法——两阶段红队 pipeline:

阶段技术手法在 VLA 语境中的意义
Stage I: Risk Scenario Synthesis从 benign 轨迹抓取"关键交互区域"(夹爪路径 / 接触点 / 工件交接点),把 risk factor 精确放置在这些区域保证生成的风险场景对原任务依然可行,避免"红队场景根本不会出现"这一常见诟病
Stage II: Risk Amplification无梯度优化:用 trajectory features 作评分函数,迭代微调 risk factor 状态(位置 / 角度 / 质量 / 摩擦)直到目标不安全行为稳定触发把"偶发失败"变成"可复现攻击",为后续评估/防御训练提供稳定信号
Output: SimpleVLA-Guard用 RedVLA 合成数据训练一个轻量守门模型形成"攻击 ↔ 防御"闭环,红队不只为报警

在 benchmark 视角的新贡献: 1. 第一次把物理 ASR 作为 VLA safety 的核心指标引入——95.5% 的数字说明当前前沿 VLA 模型在物理层面几乎毫无 safety margin。 2. 提出"关键交互区域"这个概念,为物理红队提供了可扩展的参数化框架,下游任何 VLA benchmark 都可以借用这一范式。 3. 从"只测不治"走到"红队即训练数据"——SimpleVLA-Guard 展示了红队数据反哺 safety 模型的完整循环。

与今日 Harness 方向 Terminal Wrench 的对照:Terminal Wrench 做的是"文本 agent 的 reward hack 数据集",RedVLA 做的是"物理 agent 的 risk scenario 数据集"——两者形成一个完整对比:数字世界漏洞 vs 物理世界漏洞。二者共同指出:真正的 safety 评估必须是 task-specific 的轨迹数据集,而不是静态问答题

General Red Teaming Model (2604.23067) / FlashRT (2604.28157) 的关系:后两者沿"文本红队 / LLM 红队"主线做效率和泛化;RedVLA 是把红队范式成功"跨模态迁移"到物理域的第一个样本。这提示社区:未来 benchmark 不应只有文字攻击题,而需要覆盖 text / code / multimodal / physical 全谱的红队语料。

本文引用的关键文献(附链接)
OpenVLA (2024) — An Open-Source Vision-Language-Action Model(被测代表模型)
https://arxiv.org/abs/2406.09246
Brohan et al. (2023) — RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control(VLA 范式奠基)
https://arxiv.org/abs/2307.15818
Ji, Yang et al. (2023) — Safe RLHF: Safe Reinforcement Learning from Human Feedback(同组 safety alignment 基础)
https://arxiv.org/abs/2310.12773
Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming(文本红队对照)
https://arxiv.org/abs/2402.04249
Figure AI / Physical Intelligence (2024) — π0: A Vision-Language-Action Flow Model(代表 VLA)
https://arxiv.org/abs/2410.24164
Padmakumar et al. (2026) — Training a General Purpose Automated Red Teaming Model(今日对照候选)
https://arxiv.org/abs/2604.23067
核心数据亮点
对你三个研究方向的启发
Harness Engineering

物理 agent 的 harness 必须和数字 agent 分家。RedVLA 指出:物理 harness 的评估单元不能是 prompt 对,而必须是 (初始场景, 风险因素, 目标轨迹)。这会对未来 Harness 工具链(SemaClaw / AHE / AgentFlow)提出一种新诉求:harness 要能描述"物理初始状态"这一类 task context。跟今日 Harness Terminal Wrench(文本 reward hack 数据集)合起来,形成"harness 可信度评估在数字与物理两个层面的 co-benchmark"。

Agent Skills Safety

把"技能 safety"的视野从软件扩展到机器人——而且不是象征意义的扩展,而是完整的红队 → guard 闭环。和今日 Human-Guided Harm Recovery(post-execution 偏好恢复)联读:数字侧讲"出错了如何优雅恢复",物理侧讲"出错不可恢复所以得先把错压下去"——两者共同描绘了一张按可逆性分级的 safety 框架。未来 Agent Skills Safety 应按 reversibility 把任务分层,高不可逆性场景(物理 / 金融 / 生医)采用 RedVLA 路线,高可逆性场景采用 Harm Recovery 路线。

Safety Benchmark

这是 benchmark 社区真正需要的一次"跨模态补票"。过去 HarmBench / SafetyBench / TrustLLM 清一色文本;RedVLA 补上了物理这块版图。推荐整合思路:把 RedVLA 的 risk scenario + ASR 作为"benchmark 的 Physical Track"加入现有统一 safety 评估套件(如 AIR-Bench 或 CarryOnBench 的扩展)。此外 RedVLA 开放数据 + SimpleVLA-Guard 的做法值得所有 red-team benchmark 借鉴——红队产物必须具备"反哺防御模型"的可用性,否则就是一次性评估。

相关延伸阅读
资源链接