| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| RedVLA: Physical Red Teaming for Vision-Language-Action Models今日选定 | VLA 物理红队 + Guard 数据 | arXiv 2026-04-24 (Peking Univ. Yang 组) | 94 |
| FlashRT: Efficient Red-Teaming for Long-Context LLMs | 效率化红队算法 | arXiv 2026-04-30 | 92 |
| Training a General Purpose Automated Red Teaming Model | 通用红队模型训练管线 | arXiv 2026-04-24 (NVIDIA) | 91 |
| AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming | 演化式红队 Agent | arXiv 2026-04-23 | 90 |
| What Makes a Good Terminal-Agent Benchmark Task | Benchmark 任务设计指南 | arXiv 2026-04-30 | 89 |
Vision-Language-Action(VLA)模型走向真实部署,一直受制于"不可预测且不可逆的物理伤害"风险。然而,我们当前缺乏一种在部署前主动检测物理安全风险的有效机制。为了补上这一空缺,我们提出 RedVLA:首个面向 VLA 模型物理安全的红队框架。
我们用两阶段流程系统性地暴露不安全行为:
(I) Risk Scenario Synthesis(风险场景合成)——构造一个有效、任务可行的初始风险场景。具体做法:从正常轨迹中识别"关键交互区域",把风险因素(risk factor)布置到这些区域内,让它与 VLA 的执行流纠缠并触发目标不安全行为。
(II) Risk Amplification(风险放大)——保证在异构模型间稳定触发。它以轨迹特征为引导,通过无梯度优化反复细化风险因素的状态,直到目标不安全行为被稳定激发。
在 6 个代表性 VLA 模型上的实验表明,RedVLA 能够挖掘出多样化的不安全行为,10 次优化迭代内 Attack Success Rate (ASR) 最高达到 95.5%。我们进一步基于 RedVLA 合成数据训练了轻量级 SimpleVLA-Guard 作为部署侧 safety guard。数据、资产与代码在 redvla.github.io 公开。
解决了什么问题:VLA 模型(代表作:RT-2、OpenVLA、π0、GR00T)已经在仿真到真机之间的界限越来越模糊,越来越多机构在实机部署——但物理世界的 safety 有一个数字世界没有的特性:不可回滚。数字 agent 把文件删了还能从备份恢复,机器人把架子撞倒砸到人就真的砸到了。过去一年的 safety 工作绝大部分在 text-only / computer-use 层面,物理层面的红队研究几乎一片空白。本文是第一篇正儿八经把"物理红队"作为独立 benchmark 范畴拿出来做的工作。
核心方法——两阶段红队 pipeline:
| 阶段 | 技术手法 | 在 VLA 语境中的意义 |
|---|---|---|
| Stage I: Risk Scenario Synthesis | 从 benign 轨迹抓取"关键交互区域"(夹爪路径 / 接触点 / 工件交接点),把 risk factor 精确放置在这些区域 | 保证生成的风险场景对原任务依然可行,避免"红队场景根本不会出现"这一常见诟病 |
| Stage II: Risk Amplification | 无梯度优化:用 trajectory features 作评分函数,迭代微调 risk factor 状态(位置 / 角度 / 质量 / 摩擦)直到目标不安全行为稳定触发 | 把"偶发失败"变成"可复现攻击",为后续评估/防御训练提供稳定信号 |
| Output: SimpleVLA-Guard | 用 RedVLA 合成数据训练一个轻量守门模型 | 形成"攻击 ↔ 防御"闭环,红队不只为报警 |
在 benchmark 视角的新贡献: 1. 第一次把物理 ASR 作为 VLA safety 的核心指标引入——95.5% 的数字说明当前前沿 VLA 模型在物理层面几乎毫无 safety margin。 2. 提出"关键交互区域"这个概念,为物理红队提供了可扩展的参数化框架,下游任何 VLA benchmark 都可以借用这一范式。 3. 从"只测不治"走到"红队即训练数据"——SimpleVLA-Guard 展示了红队数据反哺 safety 模型的完整循环。
与今日 Harness 方向 Terminal Wrench 的对照:Terminal Wrench 做的是"文本 agent 的 reward hack 数据集",RedVLA 做的是"物理 agent 的 risk scenario 数据集"——两者形成一个完整对比:数字世界漏洞 vs 物理世界漏洞。二者共同指出:真正的 safety 评估必须是 task-specific 的轨迹数据集,而不是静态问答题。
与 General Red Teaming Model (2604.23067) / FlashRT (2604.28157) 的关系:后两者沿"文本红队 / LLM 红队"主线做效率和泛化;RedVLA 是把红队范式成功"跨模态迁移"到物理域的第一个样本。这提示社区:未来 benchmark 不应只有文字攻击题,而需要覆盖 text / code / multimodal / physical 全谱的红队语料。
https://arxiv.org/abs/2406.09246
https://arxiv.org/abs/2307.15818
https://arxiv.org/abs/2310.12773
https://arxiv.org/abs/2402.04249
https://arxiv.org/abs/2410.24164
https://arxiv.org/abs/2604.23067
- 6 个前沿 VLA 模型 × 10 次迭代:RedVLA 在多个主流 VLA 模型上稳定把 ASR 推到 95.5%,证明物理 safety 漏洞不是某模型特例。
- "关键交互区域"作为参数化风险空间:第一个把物理红队规约为一个"从 benign 轨迹反推关键区 → 植入风险因素"的自动化流程,使攻击可量化、可比较。
- 无梯度优化:放弃对 VLA 模型参数的访问假设,以轨迹特征为反馈信号做黑盒扰动——对闭源商用 VLA 同样适用。
- SimpleVLA-Guard:用红队数据回训的轻量 guard,证明红队不是只产出 benchmark 分数,更是 safety 训练的第一手监督数据来源。
物理 agent 的 harness 必须和数字 agent 分家。RedVLA 指出:物理 harness 的评估单元不能是 prompt 对,而必须是 (初始场景, 风险因素, 目标轨迹)。这会对未来 Harness 工具链(SemaClaw / AHE / AgentFlow)提出一种新诉求:harness 要能描述"物理初始状态"这一类 task context。跟今日 Harness Terminal Wrench(文本 reward hack 数据集)合起来,形成"harness 可信度评估在数字与物理两个层面的 co-benchmark"。
把"技能 safety"的视野从软件扩展到机器人——而且不是象征意义的扩展,而是完整的红队 → guard 闭环。和今日 Human-Guided Harm Recovery(post-execution 偏好恢复)联读:数字侧讲"出错了如何优雅恢复",物理侧讲"出错不可恢复所以得先把错压下去"——两者共同描绘了一张按可逆性分级的 safety 框架。未来 Agent Skills Safety 应按 reversibility 把任务分层,高不可逆性场景(物理 / 金融 / 生医)采用 RedVLA 路线,高可逆性场景采用 Harm Recovery 路线。
这是 benchmark 社区真正需要的一次"跨模态补票"。过去 HarmBench / SafetyBench / TrustLLM 清一色文本;RedVLA 补上了物理这块版图。推荐整合思路:把 RedVLA 的 risk scenario + ASR 作为"benchmark 的 Physical Track"加入现有统一 safety 评估套件(如 AIR-Bench 或 CarryOnBench 的扩展)。此外 RedVLA 开放数据 + SimpleVLA-Guard 的做法值得所有 red-team benchmark 借鉴——红队产物必须具备"反哺防御模型"的可用性,否则就是一次性评估。
- HarmBench — Mazeika et al. (2024) — 文本红队标准评测框架,RedVLA 在物理层面对应物
https://arxiv.org/abs/2402.04249 - Safe RLHF — Ji, Yang et al. (2023) — 同组 safety alignment 基础工作
https://arxiv.org/abs/2310.12773 - RT-2 — Brohan et al. (2023) — VLA 范式奠基,被测模型同谱系
https://arxiv.org/abs/2307.15818