← 总导航 / Safety Benchmark

Safety Benchmark

safety/agent/alignment benchmark · red teaming · HarmBench · TrustLLM · AIR-Bench

归档报告（最新在前）

May

05

#1

AcademiClaw：当大学生给 AI Agent 出题——80 道真实学术任务，最强模型只过 55%

Yu, Liu et al. · GAIR-NLP（上交大） · arXiv 2026-05-04

94 分
May

04

#1

SafetyALFRED：把 ALFRED 扩成厨房物理安全——MLLM 认得出但救不了

Torres-Fonseca, Deng, Dai, Chai et al. · U-Michigan SLED · arXiv 2026-04-21

93 分
May

03

#1

RedVLA：首个 VLA 物理红队框架，ASR 95.5%，附 SimpleVLA-Guard

Zhang, Zhang et al. · Peking Univ. Yang 组 · arXiv 2026-04-24

94 分
May

02

#1

CarryOnBench：第一个多轮 safety × utility 双目标 benchmark，前沿模型首轮效用仅 10.5-37.6%

Zheng, Morgan et al. · CMU / UW · arXiv 2026-04-29

94 分
May

01

#1

Claw-Eval-Live：首个"实时刷新"Agent 工作流基准——无人破 70% 门槛

Li, Tang et al. · arXiv 2026-04-30 · 105 task / 13 frontier model

94 分
Apr

30

#1

CSTM-Bench：跨会话威胁首个系统 benchmark，guardrail 召回直接腰斩

Ari Azarafrooz · arXiv 2026-04-22 · Hugging Face 已开源

92 分
Apr

29

#2

安全 Benchmark 有多依赖评判者配置？——Judge Prompt 一词之差让 ASR 偏移 24.2 pp

Xinran Zhang · ICIC 2026 / Springer CCIS · arXiv 2026-04-27

93 分
Apr

29

#1

BenchGuard：谁来守护 Benchmark 本身？Agent Benchmark 的自动审计

Tu, Wang et al. · 华盛顿大学 / 斯坦福 · arXiv 2026-04-27

91 分