← 总导航 / Safety Benchmark / 2026-05-02 #1
2026 年 5 月 2 日 · Safety Benchmark · 多轮效用恢复 · CMU × U.Washington

CarryOnBench:Benchmark 第一次同时测"多轮安全"与"效用恢复"——发现三类单轮评估看不见的失败模式

Useless but Safe? Benchmarking Utility Recovery with User Intent Clarification in Multi-Turn Conversations
综合 94 分 相关度 9.8 来源质量 9.0 近期影响力 9.2 新颖性 9.4 开源复现 8.8
今日 Safety Benchmark 方向候选评分对比(共 5 篇)
标题(简)方向细分来源综合分
CarryOnBench: Utility Recovery with Intent Clarification今日选定 多轮 safety × utility arXiv 2026-04-29 94
GAIA-v2-LILT: 多语言 Agent Benchmark 多语 Agent 评估 arXiv 2026-04-27 89
Jailbreak in Smart Grid: NERC Benchmark 垂直行业 red team arXiv 2026-04-25 (v2) 87
Risky-Bench: Deployment Risk Probing 部署风险评估 arXiv 2026-02-03 86
FinVault: Financial Agent Safety Bench 金融 Agent 安全 arXiv 2026-01-09 85
论文基本信息
Mingqian Zheng, Malia Morgan, Liwei Jiang, Carolyn Rose, Maarten Sap
CMU LTI, University of Washington, AI2
arXiv 预印本 v1
2026-04-29
398 初始 query → 5,970 对话 → 23,880 response
一句话核心贡献
Benchmark 第一次把"safety × utility"从单轮指标升级成多轮动态指标,暴露 14 个前沿模型第一轮只能满足 10.5-37.6% 良性信息需求的"伪安全"症状。
摘要(中文翻译)

当前的 LLM 安全对齐技术在对抗攻击下提升了模型鲁棒性,但忽视了良性用户澄清意图后 LLM 能否、以及如何恢复有用性。我们提出 CarryOnBench——首个交互式 benchmark,衡量 LLM 在多轮对话中修订对用户意图的解读并恢复效用、同时保持安全的能力。

398 个看似有害但底层意图良性的 query 出发,通过变化用户的后续 follow-up 序列模拟 5,970 段对话,在 14 个模型上分别评估"对齐意图后的效用"与"安全"。CarryOnBench 产出 1,866 种不同对话流、4-12 轮、共 23,880 个 response。我们设计 Ben-Util——一个基于原子核对清单的指标,衡量每个响应对良性信息需求的满足度。

核心发现:第一轮模型只满足 10.5-37.6% 的良性信息需求;当 query 把良性意图前置时,满足度升至 25.1-72.1%,证明模型并非知识不足,而是对意图的误读导致主动扣留信息。多轮良性澄清下,14 个模型中有 13 个可以追平或超越前置 baseline,但恢复成本差异巨大。本文识别三类单轮评估看不见的失败模式:(1) Utility lock-in:模型几乎不为澄清更新;(2) Unsafe recovery:模型以不成比例的安全代价恢复效用;(3) Repetitive recovery:模型循环旧响应而非提供新信息。此外,不管模型起点多保守,多轮对话最终都收敛到相近的 harmfulness 水平。

核心内容解读

解决了什么问题:过去 Safety Benchmark(HarmBench / AIR-Bench / SafetyBench)几乎全部是单轮评估:一个 prompt 进,一个 response 出,拒绝得越好分越高。这让工业界训出来的模型普遍患上"过度保守病"——在 seemingly harmful but benignly intended 的请求上(比如"我该怎么清洗这把猎刀")直接拒绝。CarryOnBench 第一次把 safety 评估放到多轮动态场景里,追问一个核心问题:当用户澄清意图是良性的,模型能不能恢复有用?

方法论三件事:

要素做法对 safety-utility 评估的推进
399 → 5970 对话扩展398 个"看似有害、实为良性"的 seed query,每个通过多种 follow-up 序列展开成不同对话流把 benchmark 从"静态 prompt 集合"扩到"可遍历的对话状态空间"
Ben-Util 指标按 checklist 把每个良性信息需求拆成原子项,per-response 计算满足率让"是否有用"从 judge 主观打分变成可复现、可审计的原子项覆盖率
双目标评估每一轮同时记录 Ben-Util(效用)与 harmfulness(安全),做 trade-off 曲线直接暴露"假安全"——即高安全但低效用的模型是有问题的

最扎心的发现——"收敛到相近 harmfulness":作者发现无论模型初始多保守,只要对话走够长(4-12 轮),最终的 harmfulness 水平都会收敛到相近值。这意味着"保守初值"并不提供长期安全收益——它只是把风险推后。对很多以 "refusal rate 高 = 安全好" 来调模型的团队来说,这是一记重拳。

三个失败模式都是 single-turn 看不到的:

与现有工作的关键区别:HarmBench 关注对抗 prompt 下的拒绝率,不测效用;MT-Bench 关注多轮但不测 safety;AIR-Bench 关注单轮风险分类。CarryOnBench 是第一个multi-turn × safety × utility 三轴齐备的 benchmark。和今天同组的 EPO-Safe(2604.23210,agent-safety 2026-05-02 #1)也相互印证:EPO-Safe 指出"reward-only 反思加速反齐",CarryOnBench 正好用对话流量化了这种"看起来越改越好、实际安全越差"的动态。

本文引用的关键文献(附链接)
Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming(单轮 safety benchmark 代表作,本文参照对比)
https://arxiv.org/abs/2402.04249
Zheng et al. (2023) — MT-Bench: Judging LLM-as-a-Judge with Multi-Turn Dialogs(多轮评估但不测 safety)
https://arxiv.org/abs/2306.05685
Zeng et al. (2024) — AIR-Bench: Risk Classification for LLM Safety(单轮风险分类 benchmark)
https://arxiv.org/abs/2407.17436
Röttger et al. (2023) — XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in LLMs("伪安全 / 过度拒绝"问题最早系统化)
https://arxiv.org/abs/2308.01263
Bai et al. (Anthropic, 2022) — Constitutional AI: Harmlessness from AI Feedback(RLHF-alignment 路线源头)
https://arxiv.org/abs/2212.08073
Sap et al. (2019) — Social Bias Frames(作者 Maarten Sap 的既往工作,同脉络)
https://arxiv.org/abs/1911.03891
核心数据亮点
对你三个研究方向的启发
Harness Engineering

Harness 设计必须重新定义 "utility × safety 双目标":以往 harness 层偏好"宁可拒绝也不要危险",CarryOnBench 证明这种策略在多轮下既扣效用也并不带来长期安全。这意味着 Harness(如 SemaClaw / AHE / HARBOR)在 Evaluator 层必须加一个"intent-clarification aware" 的轴:把"用户是否是良性需求 + 是否被澄清过"作为一等公民的上下文信号。对于今天同组的 Meta-Evolution(2604.21003)——Evaluator V 的设计空间里必须有 "multi-turn Ben-Util" 这一项。

Agent Skills Safety

CarryOnBench 的三个失败模式(utility lock-in / unsafe recovery / repetitive recovery)都会在 Agent Skill 调用里被放大:skill 一旦被 lock-in 在"拒绝",agent 就完全无法工作;一旦 unsafe recovery,agent 会调用危险工具;repetitive recovery 则让 agent 消耗 token 却不解决问题。Skill 安全框架必须显式设计"经过良性澄清后的技能再授权路径"——这恰好和 EPO-Safe(2604.23210)的"自主规约 + 1-bit 安全通道"互补:澄清通道 + 1-bit 危险通道,一个刷新效用,一个守住底线。

Safety Benchmark

这是 Safety Benchmark 的范式切换:从"单轮 pass/fail"到"多轮动态轨迹",从"安全分数"到"safety-utility 前沿曲线"。未来新的 safety benchmark 应默认公开:(1) 每个 query 的良性底层意图;(2) 用户后续澄清的 follow-up 模板;(3) 原子化的 checklist 指标——这样别人跑出来的分数才能公平比较。CarryOnBench 对社区的最重要贡献可能不是模型排名,而是"Ben-Util"这种 checklist 原子指标的范式推广——可以直接移植到 SafeAgentBench、HarmBench-v2 等所有后续工作。

相关延伸阅读
资源链接