2026-05-04 #1 · Safety Benchmark · Daily Paper Tracker

今日 Benchmark 方向候选评分对比（共 5 篇候选）

标题（简）	方向细分	来源	综合分
SafetyALFRED: Evaluating Safety-Conscious Planning of MLLMs今日选定	具身 Agent 安全 benchmark	arXiv 2026-04-21 (Torres-Fonseca/Deng/Dai/Chai et al., U-Michigan SLED + Boise State)	93
Detecting Safety Violations Across Many Agent Traces	大规模轨迹安全审计	arXiv 2026-04-13 (UPenn, Stein/Brown/Hassani/Naik/Wong)	91
ATBench: Diverse and Realistic Agent Trajectory Benchmark	轨迹级安全评估	arXiv 2026-04-02 v2	89
Claw-Eval: Trustworthy Evaluation of Autonomous Agents	全链路安全基准	arXiv 2026-04-07	88
NESSiE: The Necessary Safety Benchmark	安全"必要不充分"条件	arXiv 2026-02-18 (Bertram/Geiping)	86

论文基本信息

英文标题SafetyALFRED: Evaluating Safety-Conscious Planning of Multimodal Large Language Models

中文标题SafetyALFRED：评估多模态大模型在具身情境中的"安全意识规划"

作者Josue Torres-Fonseca, Naihao Deng, Yinpei Dai, Shane Storks, Yichi Zhang, Rada Mihalcea, Casey Kennington, Joyce Chai

机构University of Michigan（SLED Lab），Boise State University

发表状态arXiv 预印本 v1

提交时间2026-04-21

arXiv 链接https://arxiv.org/abs/2604.19638

PDF 链接https://arxiv.org/pdf/2604.19638

分类cs.AI / cs.CL / cs.RO

开源github.com/sled-group/SafetyALFRED

一句话核心贡献

      把经典 ALFRED 环境扩成 6 大类厨房物理安全场景，揭示：MLLM 能认出危险（QA 高分），但行动上救不了场。
    

摘要（中文翻译，忠实原文）

多模态大语言模型（MLLM）越来越多地被部署为交互式环境中的自主 Agent，但它们主动处理安全隐患的能力仍然不足。我们提出 SafetyALFRED，基于具身 Agent 基准 ALFRED，扩充了 6 类真实世界厨房隐患。

现有的安全评估多局限在非具身的问答（QA）设置下，只检验模型能否识别危险。本文则同时评估来自 Qwen、Gemma、Gemini 三家系列的 11 个 SOTA 模型——不仅考察 hazard recognition（危险识别），还考察通过具身规划进行的主动风险缓解（risk mitigation via embodied planning）。实验结果揭示出显著的对齐鸿沟（alignment gap）：模型在 QA 设置下可以准确识别隐患，但相应的具身缓解成功率却远低于识别率。

结论：静态 QA 评估不足以衡量物理安全，作者呼吁范式转向"将纠正性行动置于具身情境"的 benchmark。代码与数据集在 github.com/sled-group/SafetyALFRED 开源。

核心内容解读（背景·方法·差异）

解决了什么问题：过去两年，"安全评估"在多模态社区几乎等同于"给模型出危险图片看它会不会识别"。这种 QA 形式虽然统计上好看，但完全跳过了真正决定后果的那一步：模型采取了什么物理行动。正如一个人"知道煤气味道危险"和"闻到后会关闭阀门开窗"是两件事——前者是认知测试，后者才是安全测试。SafetyALFRED 把安全评估从认知层推到embodied planning 层。

基准构造：

维度	SafetyALFRED 的做法	意义
环境基底	复用 ALFRED（AI2-THOR 家用环境） + 扩充 6 类厨房隐患（高温器皿、尖锐物、湿滑、燃气、刀具开放、毒性清洁剂等）	避免重新造具身仿真器的成本，直接继承 ALFRED 的 oracle planner 可判定性
双任务设计	Task A: 隐患识别（QA 形式）；Task B: 具身风险缓解（规划+执行）	定量地"分开测认知 vs. 行动"——才能观测 alignment gap
受测模型	11 个 SOTA MLLM：Qwen、Gemma、Gemini 系列	跨家族覆盖，既含开源也含闭源前沿模型
关键指标	Recognition Accuracy（QA） vs. Mitigation Success Rate（具身）	直接可视化 alignment gap：前者高、后者低 = 认知行动脱节
呼吁	范式转变：从"disembodied QA" → "corrective actions in embodied contexts"	为整个 AI-safety benchmark 社区提出"第二波 embodied shift"的议程

核心发现——"识得出但救不了"的对齐鸿沟：SafetyALFRED 定量地展示：就算模型可以用 QA 答对"这把刀这么放有什么风险"，一旦被要求真正采取行动（移动刀、关掉明火、把洗洁精放回柜子），mitigation 成功率平均远低于 recognition。这是对当下"安全对齐"工作流最直接的拷问：我们的 alignment 到底是在训模型"能说会说"，还是在训它"能救能救"？

与已归档相关工作的对比：

与 RedVLA (2604.22591)：RedVLA 是"攻"——对 VLA 做物理红队，证明它易被打穿；SafetyALFRED 是"防"——问 MLLM 在厨房里会不会做出"防危险的动作"。两者合在一起构成"物理安全 benchmark 的攻防双面"。
与 CSTM-Bench：CSTM-Bench 看的是跨会话记忆带来的信息层威胁；SafetyALFRED 看的是物理层威胁。它们扩大了"safety benchmark 该评估什么"的坐标系。
与 Judge Sensitivity：Judge Prompt 的偏差可让 ASR 偏 24.2pp。SafetyALFRED 把"判定"从 LLM judge 下放到 AI2-THOR oracle——这是对"LLM judge 飘移"最直接的工程性回避。

本文引用 / 对比的关键文献（附链接）

Shridhar et al. (2020) — ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks（环境基底）
https://arxiv.org/abs/1912.01734

Kolve et al. — AI2-THOR: Interactive 3D Environment for Visual AI
https://arxiv.org/abs/1712.05474

Qwen Team — Qwen-VL / Qwen2.5-VL Series
https://arxiv.org/abs/2409.12191

Google DeepMind — Gemini Technical Reports
deepmind.google/technologies/gemini

Zhang et al. (2024) — Robot-Safe-Bench: Towards Safe Embodied Agents（相近 embodied safety 研究）
https://arxiv.org/abs/2405.17140

SLED Group — SLED Lab, University of Michigan（作者团队）
sled.eecs.umich.edu

核心数据亮点

6 类真实世界厨房隐患 × ALFRED：第一次把日常家庭"物理安全风险"以 oracle 可判定的形式引入 LLM Agent benchmark，对标 RedVLA 对工业 VLA 的物理红队做法。
11 个 SOTA MLLM 全家福：Qwen / Gemma / Gemini 系列——跨开源与闭源，结果具统计说服力。
"识得出 vs. 救不了"显著差距：平均 mitigation success 远低于 recognition accuracy，揭示的对齐鸿沟是可复现的，不只个案。
Paradigm shift 呼吁：论文直接定义了社区的下一步方向——"corrective actions in embodied contexts"，为接下来一年 safety benchmark 设定 agenda。
可复现基础设施：ALFRED oracle 判定 + 代码&数据完整开源（sled-group/SafetyALFRED），为后续工作直接提供可扩展平台。

对你三个研究方向的启发

Harness Engineering

SafetyALFRED 给 Harness 设计者一条新常识："认知指标"和"行动指标"不能混。下一代 Agent Harness 应该天然支持(recognition, mitigation) 二维度评估——例如今天的 VeRO 只要在其 Observations 中多记一层"是否采取了缓解动作以及结果"，就能一站式把 alignment gap 问题纳入 harness 级基础指标。

Agent Skills Safety

"QA 合格 & 行动不合格"这条差距给 Safety 研究提供了具体的干预靶点：训练应包括"纠正性技能"（corrective skill），而不只是"识别回避"（detect-refuse）。这与今天 agent-safety 方向的 Symbolic Guardrails 形成互补——前者从"训练信号"端补行动，后者从"部署守卫"端保证动作不越线。两条路拢起来，"能认危险且能救险"才成为可验证标准。

Safety Benchmark

SafetyALFRED 是整个 Safety Benchmark 方向"第二波具身化"的典型代表——与 RedVLA 一起，将 safety benchmark 的试验场从"对话"推到"物理世界"。建议社区把该范式推广到其他具身基底（Habitat, iGibson, RoboCasa），把"disembodied-QA"彻底变成一类被废弃的 safety 评估套路。再叠加 Symbolic Guardrails 的"85% benchmark 无明确 policy"发现：新一波 benchmark 应当同时满足"物理可验证"和"policy 可机器验收"两项底线。

SafetyALFRED：把 ALFRED 扩成"厨房物理安全"——揭开 QA 合格但行动不合格的"对齐鸿沟"