← 总导航 / Safety Benchmark / 2026-05-04 #1
2026 年 5 月 4 日 · Safety Benchmark · Embodied Agent Safety · 从 QA 到"物理行动"

SafetyALFRED:把 ALFRED 扩成"厨房物理安全"——揭开 QA 合格但行动不合格的"对齐鸿沟"

SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
综合 93 分 相关度 9.8 来源质量 9.2 近期影响力 8.5 新颖性 9.0 开源复现 9.5
今日 Benchmark 方向候选评分对比(共 5 篇候选)
标题(简)方向细分来源综合分
SafetyALFRED: Evaluating Safety-Conscious Planning of MLLMs今日选定 具身 Agent 安全 benchmark arXiv 2026-04-21 (Torres-Fonseca/Deng/Dai/Chai et al., U-Michigan SLED + Boise State) 93
Detecting Safety Violations Across Many Agent Traces 大规模轨迹安全审计 arXiv 2026-04-13 (UPenn, Stein/Brown/Hassani/Naik/Wong) 91
ATBench: Diverse and Realistic Agent Trajectory Benchmark 轨迹级安全评估 arXiv 2026-04-02 v2 89
Claw-Eval: Trustworthy Evaluation of Autonomous Agents 全链路安全基准 arXiv 2026-04-07 88
NESSiE: The Necessary Safety Benchmark 安全"必要不充分"条件 arXiv 2026-02-18 (Bertram/Geiping) 86
论文基本信息
SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models
SafetyALFRED:评估多模态大模型在具身情境中的"安全意识规划"
Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Chai
University of Michigan(SLED Lab),Boise State University
arXiv 预印本 v1
2026-04-21
cs.AI / cs.CL / cs.RO
一句话核心贡献
把经典 ALFRED 环境扩成 6 大类厨房物理安全场景,揭示:MLLM 能认出危险(QA 高分),但行动上救不了场。
摘要(中文翻译,忠实原文)

多模态大语言模型(MLLM)越来越多地被部署为交互式环境中的自主 Agent,但它们主动处理安全隐患的能力仍然不足。我们提出 SafetyALFRED,基于具身 Agent 基准 ALFRED,扩充了 6 类真实世界厨房隐患

现有的安全评估多局限在非具身的问答(QA)设置下,只检验模型能否识别危险。本文则同时评估来自 Qwen、Gemma、Gemini 三家系列的 11 个 SOTA 模型——不仅考察 hazard recognition(危险识别),还考察通过具身规划进行的主动风险缓解(risk mitigation via embodied planning)。实验结果揭示出显著的对齐鸿沟(alignment gap):模型在 QA 设置下可以准确识别隐患,但相应的具身缓解成功率却远低于识别率。

结论:静态 QA 评估不足以衡量物理安全,作者呼吁范式转向"将纠正性行动置于具身情境"的 benchmark。代码与数据集在 github.com/sled-group/SafetyALFRED 开源。

核心内容解读(背景·方法·差异)

解决了什么问题:过去两年,"安全评估"在多模态社区几乎等同于"给模型出危险图片看它会不会识别"。这种 QA 形式虽然统计上好看,但完全跳过了真正决定后果的那一步:模型采取了什么物理行动。正如一个人"知道煤气味道危险"和"闻到后会关闭阀门开窗"是两件事——前者是认知测试,后者才是安全测试。SafetyALFRED 把安全评估从认知层推到embodied planning 层

基准构造:

维度SafetyALFRED 的做法意义
环境基底复用 ALFRED(AI2-THOR 家用环境) + 扩充 6 类厨房隐患(高温器皿、尖锐物、湿滑、燃气、刀具开放、毒性清洁剂等)避免重新造具身仿真器的成本,直接继承 ALFRED 的 oracle planner 可判定性
双任务设计Task A: 隐患识别(QA 形式);Task B: 具身风险缓解(规划+执行)定量地"分开测认知 vs. 行动"——才能观测 alignment gap
受测模型11 个 SOTA MLLM:Qwen、Gemma、Gemini 系列跨家族覆盖,既含开源也含闭源前沿模型
关键指标Recognition Accuracy(QA) vs. Mitigation Success Rate(具身)直接可视化 alignment gap:前者高、后者低 = 认知行动脱节
呼吁范式转变:从"disembodied QA" → "corrective actions in embodied contexts"为整个 AI-safety benchmark 社区提出"第二波 embodied shift"的议程

核心发现——"识得出但救不了"的对齐鸿沟:SafetyALFRED 定量地展示:就算模型可以用 QA 答对"这把刀这么放有什么风险",一旦被要求真正采取行动(移动刀、关掉明火、把洗洁精放回柜子),mitigation 成功率平均远低于 recognition。这是对当下"安全对齐"工作流最直接的拷问:我们的 alignment 到底是在训模型"能说会说",还是在训它"能救能救"?

与已归档相关工作的对比:

本文引用 / 对比的关键文献(附链接)
Shridhar et al. (2020) — ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks(环境基底)
https://arxiv.org/abs/1912.01734
Kolve et al. — AI2-THOR: Interactive 3D Environment for Visual AI
https://arxiv.org/abs/1712.05474
Qwen Team — Qwen-VL / Qwen2.5-VL Series
https://arxiv.org/abs/2409.12191
Google DeepMind — Gemini Technical Reports
deepmind.google/technologies/gemini
Zhang et al. (2024) — Robot-Safe-Bench: Towards Safe Embodied Agents(相近 embodied safety 研究)
https://arxiv.org/abs/2405.17140
SLED Group — SLED Lab, University of Michigan(作者团队)
sled.eecs.umich.edu
核心数据亮点
对你三个研究方向的启发
Harness Engineering

SafetyALFRED 给 Harness 设计者一条新常识:"认知指标"和"行动指标"不能混。下一代 Agent Harness 应该天然支持(recognition, mitigation) 二维度评估——例如今天的 VeRO 只要在其 Observations 中多记一层"是否采取了缓解动作以及结果",就能一站式把 alignment gap 问题纳入 harness 级基础指标。

Agent Skills Safety

"QA 合格 & 行动不合格"这条差距给 Safety 研究提供了具体的干预靶点:训练应包括"纠正性技能"(corrective skill),而不只是"识别回避"(detect-refuse)。这与今天 agent-safety 方向的 Symbolic Guardrails 形成互补——前者从"训练信号"端补行动,后者从"部署守卫"端保证动作不越线。两条路拢起来,"能认危险且能救险"才成为可验证标准。

Safety Benchmark

SafetyALFRED 是整个 Safety Benchmark 方向"第二波具身化"的典型代表——与 RedVLA 一起,将 safety benchmark 的试验场从"对话"推到"物理世界"。建议社区把该范式推广到其他具身基底(Habitat, iGibson, RoboCasa),把"disembodied-QA"彻底变成一类被废弃的 safety 评估套路。再叠加 Symbolic Guardrails 的"85% benchmark 无明确 policy"发现:新一波 benchmark 应当同时满足"物理可验证"和"policy 可机器验收"两项底线。

相关延伸阅读
资源链接