| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| SafetyALFRED: Evaluating Safety-Conscious Planning of MLLMs今日选定 | 具身 Agent 安全 benchmark | arXiv 2026-04-21 (Torres-Fonseca/Deng/Dai/Chai et al., U-Michigan SLED + Boise State) | 93 |
| Detecting Safety Violations Across Many Agent Traces | 大规模轨迹安全审计 | arXiv 2026-04-13 (UPenn, Stein/Brown/Hassani/Naik/Wong) | 91 |
| ATBench: Diverse and Realistic Agent Trajectory Benchmark | 轨迹级安全评估 | arXiv 2026-04-02 v2 | 89 |
| Claw-Eval: Trustworthy Evaluation of Autonomous Agents | 全链路安全基准 | arXiv 2026-04-07 | 88 |
| NESSiE: The Necessary Safety Benchmark | 安全"必要不充分"条件 | arXiv 2026-02-18 (Bertram/Geiping) | 86 |
多模态大语言模型(MLLM)越来越多地被部署为交互式环境中的自主 Agent,但它们主动处理安全隐患的能力仍然不足。我们提出 SafetyALFRED,基于具身 Agent 基准 ALFRED,扩充了 6 类真实世界厨房隐患。
现有的安全评估多局限在非具身的问答(QA)设置下,只检验模型能否识别危险。本文则同时评估来自 Qwen、Gemma、Gemini 三家系列的 11 个 SOTA 模型——不仅考察 hazard recognition(危险识别),还考察通过具身规划进行的主动风险缓解(risk mitigation via embodied planning)。实验结果揭示出显著的对齐鸿沟(alignment gap):模型在 QA 设置下可以准确识别隐患,但相应的具身缓解成功率却远低于识别率。
结论:静态 QA 评估不足以衡量物理安全,作者呼吁范式转向"将纠正性行动置于具身情境"的 benchmark。代码与数据集在 github.com/sled-group/SafetyALFRED 开源。
解决了什么问题:过去两年,"安全评估"在多模态社区几乎等同于"给模型出危险图片看它会不会识别"。这种 QA 形式虽然统计上好看,但完全跳过了真正决定后果的那一步:模型采取了什么物理行动。正如一个人"知道煤气味道危险"和"闻到后会关闭阀门开窗"是两件事——前者是认知测试,后者才是安全测试。SafetyALFRED 把安全评估从认知层推到embodied planning 层。
基准构造:
| 维度 | SafetyALFRED 的做法 | 意义 |
|---|---|---|
| 环境基底 | 复用 ALFRED(AI2-THOR 家用环境) + 扩充 6 类厨房隐患(高温器皿、尖锐物、湿滑、燃气、刀具开放、毒性清洁剂等) | 避免重新造具身仿真器的成本,直接继承 ALFRED 的 oracle planner 可判定性 |
| 双任务设计 | Task A: 隐患识别(QA 形式);Task B: 具身风险缓解(规划+执行) | 定量地"分开测认知 vs. 行动"——才能观测 alignment gap |
| 受测模型 | 11 个 SOTA MLLM:Qwen、Gemma、Gemini 系列 | 跨家族覆盖,既含开源也含闭源前沿模型 |
| 关键指标 | Recognition Accuracy(QA) vs. Mitigation Success Rate(具身) | 直接可视化 alignment gap:前者高、后者低 = 认知行动脱节 |
| 呼吁 | 范式转变:从"disembodied QA" → "corrective actions in embodied contexts" | 为整个 AI-safety benchmark 社区提出"第二波 embodied shift"的议程 |
核心发现——"识得出但救不了"的对齐鸿沟:SafetyALFRED 定量地展示:就算模型可以用 QA 答对"这把刀这么放有什么风险",一旦被要求真正采取行动(移动刀、关掉明火、把洗洁精放回柜子),mitigation 成功率平均远低于 recognition。这是对当下"安全对齐"工作流最直接的拷问:我们的 alignment 到底是在训模型"能说会说",还是在训它"能救能救"?
与已归档相关工作的对比:
- 与 RedVLA (2604.22591):RedVLA 是"攻"——对 VLA 做物理红队,证明它易被打穿;SafetyALFRED 是"防"——问 MLLM 在厨房里会不会做出"防危险的动作"。两者合在一起构成"物理安全 benchmark 的攻防双面"。
- 与 CSTM-Bench:CSTM-Bench 看的是跨会话记忆带来的信息层威胁;SafetyALFRED 看的是物理层威胁。它们扩大了"safety benchmark 该评估什么"的坐标系。
- 与 Judge Sensitivity:Judge Prompt 的偏差可让 ASR 偏 24.2pp。SafetyALFRED 把"判定"从 LLM judge 下放到 AI2-THOR oracle——这是对"LLM judge 飘移"最直接的工程性回避。
https://arxiv.org/abs/1912.01734
https://arxiv.org/abs/1712.05474
https://arxiv.org/abs/2409.12191
deepmind.google/technologies/gemini
https://arxiv.org/abs/2405.17140
sled.eecs.umich.edu
- 6 类真实世界厨房隐患 × ALFRED:第一次把日常家庭"物理安全风险"以 oracle 可判定的形式引入 LLM Agent benchmark,对标 RedVLA 对工业 VLA 的物理红队做法。
- 11 个 SOTA MLLM 全家福:Qwen / Gemma / Gemini 系列——跨开源与闭源,结果具统计说服力。
- "识得出 vs. 救不了"显著差距:平均 mitigation success 远低于 recognition accuracy,揭示的对齐鸿沟是可复现的,不只个案。
- Paradigm shift 呼吁:论文直接定义了社区的下一步方向——"corrective actions in embodied contexts",为接下来一年 safety benchmark 设定 agenda。
- 可复现基础设施:ALFRED oracle 判定 + 代码&数据完整开源(sled-group/SafetyALFRED),为后续工作直接提供可扩展平台。
SafetyALFRED 给 Harness 设计者一条新常识:"认知指标"和"行动指标"不能混。下一代 Agent Harness 应该天然支持(recognition, mitigation) 二维度评估——例如今天的 VeRO 只要在其 Observations 中多记一层"是否采取了缓解动作以及结果",就能一站式把 alignment gap 问题纳入 harness 级基础指标。
"QA 合格 & 行动不合格"这条差距给 Safety 研究提供了具体的干预靶点:训练应包括"纠正性技能"(corrective skill),而不只是"识别回避"(detect-refuse)。这与今天 agent-safety 方向的 Symbolic Guardrails 形成互补——前者从"训练信号"端补行动,后者从"部署守卫"端保证动作不越线。两条路拢起来,"能认危险且能救险"才成为可验证标准。
SafetyALFRED 是整个 Safety Benchmark 方向"第二波具身化"的典型代表——与 RedVLA 一起,将 safety benchmark 的试验场从"对话"推到"物理世界"。建议社区把该范式推广到其他具身基底(Habitat, iGibson, RoboCasa),把"disembodied-QA"彻底变成一类被废弃的 safety 评估套路。再叠加 Symbolic Guardrails 的"85% benchmark 无明确 policy"发现:新一波 benchmark 应当同时满足"物理可验证"和"policy 可机器验收"两项底线。
- RedVLA — Zhang et al. (2026) — 首个 VLA 物理红队框架,ASR 95.5%
https://arxiv.org/abs/2604.22591 - Detecting Safety Violations Across Many Agent Traces — Stein et al. (2026)
https://arxiv.org/abs/2604.11806 - ATBench: Agent Trajectory Benchmark for Safety — Li et al. (2026)
https://arxiv.org/abs/2604.02022 - ALFRED — Shridhar et al. (2020) — 基座 embodied benchmark
https://arxiv.org/abs/1912.01734