2026-05-02 #1 · Safety Benchmark · Daily Paper Tracker

今日 Safety Benchmark 方向候选评分对比（共 5 篇）

标题（简）	方向细分	来源	综合分
CarryOnBench: Utility Recovery with Intent Clarification今日选定	多轮 safety × utility	arXiv 2026-04-29	94
GAIA-v2-LILT: 多语言 Agent Benchmark	多语 Agent 评估	arXiv 2026-04-27	89
Jailbreak in Smart Grid: NERC Benchmark	垂直行业 red team	arXiv 2026-04-25 (v2)	87
Risky-Bench: Deployment Risk Probing	部署风险评估	arXiv 2026-02-03	86
FinVault: Financial Agent Safety Bench	金融 Agent 安全	arXiv 2026-01-09	85

论文基本信息

作者Mingqian Zheng, Malia Morgan, Liwei Jiang, Carolyn Rose, Maarten Sap

机构CMU LTI, University of Washington, AI2

发表状态arXiv 预印本 v1

提交时间2026-04-29

原文链接https://arxiv.org/abs/2604.27093

PDF 链接https://arxiv.org/pdf/2604.27093

DOI10.48550/arXiv.2604.27093

数据规模398 初始 query → 5,970 对话 → 23,880 response

一句话核心贡献

      Benchmark 第一次把"safety × utility"从单轮指标升级成多轮动态指标，暴露 14 个前沿模型第一轮只能满足 10.5-37.6% 良性信息需求的"伪安全"症状。
    

摘要（中文翻译）

当前的 LLM 安全对齐技术在对抗攻击下提升了模型鲁棒性，但忽视了良性用户澄清意图后 LLM 能否、以及如何恢复有用性。我们提出 CarryOnBench——首个交互式 benchmark，衡量 LLM 在多轮对话中修订对用户意图的解读并恢复效用、同时保持安全的能力。

从 398 个看似有害但底层意图良性的 query 出发，通过变化用户的后续 follow-up 序列模拟 5,970 段对话，在 14 个模型上分别评估"对齐意图后的效用"与"安全"。CarryOnBench 产出 1,866 种不同对话流、4-12 轮、共 23,880 个 response。我们设计 Ben-Util——一个基于原子核对清单的指标，衡量每个响应对良性信息需求的满足度。

核心发现：第一轮模型只满足 10.5-37.6% 的良性信息需求；当 query 把良性意图前置时，满足度升至 25.1-72.1%，证明模型并非知识不足，而是对意图的误读导致主动扣留信息。多轮良性澄清下，14 个模型中有 13 个可以追平或超越前置 baseline，但恢复成本差异巨大。本文识别三类单轮评估看不见的失败模式：(1) Utility lock-in：模型几乎不为澄清更新；(2) Unsafe recovery：模型以不成比例的安全代价恢复效用；(3) Repetitive recovery：模型循环旧响应而非提供新信息。此外，不管模型起点多保守，多轮对话最终都收敛到相近的 harmfulness 水平。

核心内容解读

解决了什么问题：过去 Safety Benchmark（HarmBench / AIR-Bench / SafetyBench）几乎全部是单轮评估：一个 prompt 进，一个 response 出，拒绝得越好分越高。这让工业界训出来的模型普遍患上"过度保守病"——在 seemingly harmful but benignly intended 的请求上（比如"我该怎么清洗这把猎刀"）直接拒绝。CarryOnBench 第一次把 safety 评估放到多轮动态场景里，追问一个核心问题：当用户澄清意图是良性的，模型能不能恢复有用？

方法论三件事：

要素	做法	对 safety-utility 评估的推进
399 → 5970 对话扩展	398 个"看似有害、实为良性"的 seed query，每个通过多种 follow-up 序列展开成不同对话流	把 benchmark 从"静态 prompt 集合"扩到"可遍历的对话状态空间"
Ben-Util 指标	按 checklist 把每个良性信息需求拆成原子项，per-response 计算满足率	让"是否有用"从 judge 主观打分变成可复现、可审计的原子项覆盖率
双目标评估	每一轮同时记录 Ben-Util（效用）与 harmfulness（安全），做 trade-off 曲线	直接暴露"假安全"——即高安全但低效用的模型是有问题的

最扎心的发现——"收敛到相近 harmfulness"：作者发现无论模型初始多保守，只要对话走够长（4-12 轮），最终的 harmfulness 水平都会收敛到相近值。这意味着"保守初值"并不提供长期安全收益——它只是把风险推后。对很多以 "refusal rate 高 = 安全好" 来调模型的团队来说，这是一记重拳。

三个失败模式都是 single-turn 看不到的：

Utility lock-in：模型第一次拒绝后即便用户澄清，依然保持拒绝姿态——benchmark 里测不出的"死板性"。
Unsafe recovery：模型为了恢复效用把安全让步太多——比如从"拒绝"直接跳到"连枪支改装也讲"。
Repetitive recovery：模型用套话回复来凑回合数，看似"友好"但毫无信息增量。

与现有工作的关键区别：HarmBench 关注对抗 prompt 下的拒绝率，不测效用；MT-Bench 关注多轮但不测 safety；AIR-Bench 关注单轮风险分类。CarryOnBench 是第一个multi-turn × safety × utility 三轴齐备的 benchmark。和今天同组的 EPO-Safe（2604.23210，agent-safety 2026-05-02 #1）也相互印证：EPO-Safe 指出"reward-only 反思加速反齐"，CarryOnBench 正好用对话流量化了这种"看起来越改越好、实际安全越差"的动态。

本文引用的关键文献（附链接）

Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming（单轮 safety benchmark 代表作，本文参照对比）
https://arxiv.org/abs/2402.04249

Zheng et al. (2023) — MT-Bench: Judging LLM-as-a-Judge with Multi-Turn Dialogs（多轮评估但不测 safety）
https://arxiv.org/abs/2306.05685

Zeng et al. (2024) — AIR-Bench: Risk Classification for LLM Safety（单轮风险分类 benchmark）
https://arxiv.org/abs/2407.17436

Röttger et al. (2023) — XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in LLMs（"伪安全 / 过度拒绝"问题最早系统化）
https://arxiv.org/abs/2308.01263

Bai et al. (Anthropic, 2022) — Constitutional AI: Harmlessness from AI Feedback（RLHF-alignment 路线源头）
https://arxiv.org/abs/2212.08073

Sap et al. (2019) — Social Bias Frames（作者 Maarten Sap 的既往工作，同脉络）
https://arxiv.org/abs/1911.03891

核心数据亮点

第一轮良性效用仅 10.5-37.6%：14 个前沿模型在"看似有害、实为良性"query 上的第一轮仅满足 10.5-37.6% 的用户良性信息需求，几乎全体患有"过度保守病"。
澄清后最多能恢复到 72.1%：当意图前置写清，满足率升至 25.1-72.1%，证明瓶颈不是知识而是意图解读——"伪安全"由训练策略造成。
Harmfulness 长期收敛：不管起点多保守，4-12 轮对话后 harmfulness 收敛到相近水平，说明"保守初值"并不提供持久安全收益——这让"拒绝率越高越安全"的常识被实证证伪。

对你三个研究方向的启发

Harness Engineering

Harness 设计必须重新定义 "utility × safety 双目标"：以往 harness 层偏好"宁可拒绝也不要危险"，CarryOnBench 证明这种策略在多轮下既扣效用也并不带来长期安全。这意味着 Harness（如 SemaClaw / AHE / HARBOR）在 Evaluator 层必须加一个"intent-clarification aware" 的轴：把"用户是否是良性需求 + 是否被澄清过"作为一等公民的上下文信号。对于今天同组的 Meta-Evolution（2604.21003）——Evaluator V 的设计空间里必须有 "multi-turn Ben-Util" 这一项。

Agent Skills Safety

CarryOnBench 的三个失败模式（utility lock-in / unsafe recovery / repetitive recovery）都会在 Agent Skill 调用里被放大：skill 一旦被 lock-in 在"拒绝"，agent 就完全无法工作；一旦 unsafe recovery，agent 会调用危险工具；repetitive recovery 则让 agent 消耗 token 却不解决问题。Skill 安全框架必须显式设计"经过良性澄清后的技能再授权路径"——这恰好和 EPO-Safe（2604.23210）的"自主规约 + 1-bit 安全通道"互补：澄清通道 + 1-bit 危险通道，一个刷新效用，一个守住底线。

Safety Benchmark

这是 Safety Benchmark 的范式切换：从"单轮 pass/fail"到"多轮动态轨迹"，从"安全分数"到"safety-utility 前沿曲线"。未来新的 safety benchmark 应默认公开：(1) 每个 query 的良性底层意图；(2) 用户后续澄清的 follow-up 模板；(3) 原子化的 checklist 指标——这样别人跑出来的分数才能公平比较。CarryOnBench 对社区的最重要贡献可能不是模型排名，而是"Ben-Util"这种 checklist 原子指标的范式推广——可以直接移植到 SafeAgentBench、HarmBench-v2 等所有后续工作。

CarryOnBench：Benchmark 第一次同时测"多轮安全"与"效用恢复"——发现三类单轮评估看不见的失败模式