← 总导航
/
Safety Benchmark
Safety Benchmark
safety/agent/alignment benchmark · red teaming · HarmBench · TrustLLM · AIR-Bench
归档报告(最新在前)
May
05
#1
AcademiClaw:当大学生给 AI Agent 出题——80 道真实学术任务,最强模型只过 55%
Yu, Liu et al. · GAIR-NLP(上交大) · arXiv 2026-05-04
94 分
May
04
#1
SafetyALFRED:把 ALFRED 扩成厨房物理安全——MLLM 认得出但救不了
Torres-Fonseca, Deng, Dai, Chai et al. · U-Michigan SLED · arXiv 2026-04-21
93 分
May
03
#1
RedVLA:首个 VLA 物理红队框架,ASR 95.5%,附 SimpleVLA-Guard
Zhang, Zhang et al. · Peking Univ. Yang 组 · arXiv 2026-04-24
94 分
May
02
#1
CarryOnBench:第一个多轮 safety × utility 双目标 benchmark,前沿模型首轮效用仅 10.5-37.6%
Zheng, Morgan et al. · CMU / UW · arXiv 2026-04-29
94 分
May
01
#1
Claw-Eval-Live:首个"实时刷新"Agent 工作流基准——无人破 70% 门槛
Li, Tang et al. · arXiv 2026-04-30 · 105 task / 13 frontier model
94 分
Apr
30
#1
CSTM-Bench:跨会话威胁首个系统 benchmark,guardrail 召回直接腰斩
Ari Azarafrooz · arXiv 2026-04-22 · Hugging Face 已开源
92 分
Apr
29
#2
安全 Benchmark 有多依赖评判者配置?——Judge Prompt 一词之差让 ASR 偏移 24.2 pp
Xinran Zhang · ICIC 2026 / Springer CCIS · arXiv 2026-04-27
93 分
Apr
29
#1
BenchGuard:谁来守护 Benchmark 本身?Agent Benchmark 的自动审计
Tu, Wang et al. · 华盛顿大学 / 斯坦福 · arXiv 2026-04-27
91 分