| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| CarryOnBench: Utility Recovery with Intent Clarification今日选定 | 多轮 safety × utility | arXiv 2026-04-29 | 94 |
| GAIA-v2-LILT: 多语言 Agent Benchmark | 多语 Agent 评估 | arXiv 2026-04-27 | 89 |
| Jailbreak in Smart Grid: NERC Benchmark | 垂直行业 red team | arXiv 2026-04-25 (v2) | 87 |
| Risky-Bench: Deployment Risk Probing | 部署风险评估 | arXiv 2026-02-03 | 86 |
| FinVault: Financial Agent Safety Bench | 金融 Agent 安全 | arXiv 2026-01-09 | 85 |
当前的 LLM 安全对齐技术在对抗攻击下提升了模型鲁棒性,但忽视了良性用户澄清意图后 LLM 能否、以及如何恢复有用性。我们提出 CarryOnBench——首个交互式 benchmark,衡量 LLM 在多轮对话中修订对用户意图的解读并恢复效用、同时保持安全的能力。
从 398 个看似有害但底层意图良性的 query 出发,通过变化用户的后续 follow-up 序列模拟 5,970 段对话,在 14 个模型上分别评估"对齐意图后的效用"与"安全"。CarryOnBench 产出 1,866 种不同对话流、4-12 轮、共 23,880 个 response。我们设计 Ben-Util——一个基于原子核对清单的指标,衡量每个响应对良性信息需求的满足度。
核心发现:第一轮模型只满足 10.5-37.6% 的良性信息需求;当 query 把良性意图前置时,满足度升至 25.1-72.1%,证明模型并非知识不足,而是对意图的误读导致主动扣留信息。多轮良性澄清下,14 个模型中有 13 个可以追平或超越前置 baseline,但恢复成本差异巨大。本文识别三类单轮评估看不见的失败模式:(1) Utility lock-in:模型几乎不为澄清更新;(2) Unsafe recovery:模型以不成比例的安全代价恢复效用;(3) Repetitive recovery:模型循环旧响应而非提供新信息。此外,不管模型起点多保守,多轮对话最终都收敛到相近的 harmfulness 水平。
解决了什么问题:过去 Safety Benchmark(HarmBench / AIR-Bench / SafetyBench)几乎全部是单轮评估:一个 prompt 进,一个 response 出,拒绝得越好分越高。这让工业界训出来的模型普遍患上"过度保守病"——在 seemingly harmful but benignly intended 的请求上(比如"我该怎么清洗这把猎刀")直接拒绝。CarryOnBench 第一次把 safety 评估放到多轮动态场景里,追问一个核心问题:当用户澄清意图是良性的,模型能不能恢复有用?
方法论三件事:
| 要素 | 做法 | 对 safety-utility 评估的推进 |
|---|---|---|
| 399 → 5970 对话扩展 | 398 个"看似有害、实为良性"的 seed query,每个通过多种 follow-up 序列展开成不同对话流 | 把 benchmark 从"静态 prompt 集合"扩到"可遍历的对话状态空间" |
| Ben-Util 指标 | 按 checklist 把每个良性信息需求拆成原子项,per-response 计算满足率 | 让"是否有用"从 judge 主观打分变成可复现、可审计的原子项覆盖率 |
| 双目标评估 | 每一轮同时记录 Ben-Util(效用)与 harmfulness(安全),做 trade-off 曲线 | 直接暴露"假安全"——即高安全但低效用的模型是有问题的 |
最扎心的发现——"收敛到相近 harmfulness":作者发现无论模型初始多保守,只要对话走够长(4-12 轮),最终的 harmfulness 水平都会收敛到相近值。这意味着"保守初值"并不提供长期安全收益——它只是把风险推后。对很多以 "refusal rate 高 = 安全好" 来调模型的团队来说,这是一记重拳。
三个失败模式都是 single-turn 看不到的:
- Utility lock-in:模型第一次拒绝后即便用户澄清,依然保持拒绝姿态——benchmark 里测不出的"死板性"。
- Unsafe recovery:模型为了恢复效用把安全让步太多——比如从"拒绝"直接跳到"连枪支改装也讲"。
- Repetitive recovery:模型用套话回复来凑回合数,看似"友好"但毫无信息增量。
与现有工作的关键区别:HarmBench 关注对抗 prompt 下的拒绝率,不测效用;MT-Bench 关注多轮但不测 safety;AIR-Bench 关注单轮风险分类。CarryOnBench 是第一个multi-turn × safety × utility 三轴齐备的 benchmark。和今天同组的 EPO-Safe(2604.23210,agent-safety 2026-05-02 #1)也相互印证:EPO-Safe 指出"reward-only 反思加速反齐",CarryOnBench 正好用对话流量化了这种"看起来越改越好、实际安全越差"的动态。
https://arxiv.org/abs/2402.04249
https://arxiv.org/abs/2306.05685
https://arxiv.org/abs/2407.17436
https://arxiv.org/abs/2308.01263
https://arxiv.org/abs/2212.08073
https://arxiv.org/abs/1911.03891
- 第一轮良性效用仅 10.5-37.6%:14 个前沿模型在"看似有害、实为良性"query 上的第一轮仅满足 10.5-37.6% 的用户良性信息需求,几乎全体患有"过度保守病"。
- 澄清后最多能恢复到 72.1%:当意图前置写清,满足率升至 25.1-72.1%,证明瓶颈不是知识而是意图解读——"伪安全"由训练策略造成。
- Harmfulness 长期收敛:不管起点多保守,4-12 轮对话后 harmfulness 收敛到相近水平,说明"保守初值"并不提供持久安全收益——这让"拒绝率越高越安全"的常识被实证证伪。
Harness 设计必须重新定义 "utility × safety 双目标":以往 harness 层偏好"宁可拒绝也不要危险",CarryOnBench 证明这种策略在多轮下既扣效用也并不带来长期安全。这意味着 Harness(如 SemaClaw / AHE / HARBOR)在 Evaluator 层必须加一个"intent-clarification aware" 的轴:把"用户是否是良性需求 + 是否被澄清过"作为一等公民的上下文信号。对于今天同组的 Meta-Evolution(2604.21003)——Evaluator V 的设计空间里必须有 "multi-turn Ben-Util" 这一项。
CarryOnBench 的三个失败模式(utility lock-in / unsafe recovery / repetitive recovery)都会在 Agent Skill 调用里被放大:skill 一旦被 lock-in 在"拒绝",agent 就完全无法工作;一旦 unsafe recovery,agent 会调用危险工具;repetitive recovery 则让 agent 消耗 token 却不解决问题。Skill 安全框架必须显式设计"经过良性澄清后的技能再授权路径"——这恰好和 EPO-Safe(2604.23210)的"自主规约 + 1-bit 安全通道"互补:澄清通道 + 1-bit 危险通道,一个刷新效用,一个守住底线。
这是 Safety Benchmark 的范式切换:从"单轮 pass/fail"到"多轮动态轨迹",从"安全分数"到"safety-utility 前沿曲线"。未来新的 safety benchmark 应默认公开:(1) 每个 query 的良性底层意图;(2) 用户后续澄清的 follow-up 模板;(3) 原子化的 checklist 指标——这样别人跑出来的分数才能公平比较。CarryOnBench 对社区的最重要贡献可能不是模型排名,而是"Ben-Util"这种 checklist 原子指标的范式推广——可以直接移植到 SafeAgentBench、HarmBench-v2 等所有后续工作。
- HarmBench — Mazeika et al. (2024) — 单轮 safety 红队评估标准化代表作,CarryOnBench 的对照基线
https://arxiv.org/abs/2402.04249 - XSTest — Röttger et al. (2023) — 最早系统研究"LLM 过度拒绝"的 benchmark,与 Ben-Util 同脉
https://arxiv.org/abs/2308.01263 - MT-Bench — Zheng et al. (2023) — 多轮评估范式源头;CarryOnBench 把它的多轮思路搬到 safety 领域
https://arxiv.org/abs/2306.05685