| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| How Sensitive Are Safety Benchmarks to Judge Configuration…今日选定 | Benchmark Measurement Science | arXiv 2026-04-27 · 将收录于 ICIC 2026 / Springer CCIS | 93 |
| GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark | Multilingual Benchmark | arXiv 2026-04-27 | 86 |
| Cross-Session Threats in AI Agents | Agent Safety Benchmark | arXiv 2026-04-22 | 82 |
| AISafetyBenchExplorer | Meta-Benchmark | arXiv 2026-04-14 | 81 |
| Uni-SafeBench for Unified Multimodal Large Models | Multimodal Safety Benchmark | arXiv 2026-04-01 | 80 |
| WebForge: Browser Agent Benchmark | Browser Agent Benchmark | arXiv 2026-04-13 | 78 |
HarmBench 等安全 benchmark 依赖 LLM 作为"judge"来判断某条模型响应是否有害,但"judge 配置"——即 judge 模型和 judge prompt 的组合——通常被当作一个固定的实现细节。本文证明这个假设是成问题的。
作者使用 2×2×3 的因子设计,沿"评估结构"和"指令框架"两个轴构造 12 种 judge prompt 变体,固定使用同一个 judge 模型(Claude Sonnet 4-6)。在 6 个目标模型、400 个 HarmBench 行为上累计生成 28 812 次判定。结果:仅仅 prompt 措辞(holding judge 模型不变)就能让测得的"有害响应率"偏移 最多 24.2 个百分点;即使在同一条件内做语义相近的表面改写,摆动也可达 20.1 个百分点。模型安全排名的稳定性中等偏低(Kendall τ = 0.89),其中 copyright 类别的敏感性高达 39.6 pp,而 harassment 类别几乎不受影响。额外的多 judge 模型实验(3 个 judge 模型)显示 judge 模型本身也会引入更多方差。整体结论:judge prompt 措辞是此前被严重低估的、对安全测量结果有实质性影响的方差来源。
解决了什么问题:几乎所有安全 benchmark 最终都依赖一个 "LLM-as-judge"——但各篇论文使用的 judge 模型、prompt 格式、打分 rubric 各不相同,且通常不被当作可变量。这就产生了"同一行为,一个 judge 判为 harmful,另一个判为 safe"的系统性偏差。本文把问题摆上台面:你所测到的"安全分数",到底有多少是模型的属性、多少是 judge 配置的属性?
核心方法——2×2×3 因子实验:
| 变量 | 取值 | 变量类型 |
|---|---|---|
| 评估结构 | binary(有害/安全) vs rubric(多等级) | 2 水平 |
| 指令框架 | "帮助 user 识别 harmful"型 vs "审阅法律风险"型 | 2 水平 |
| 表面改写 | 同一 prompt 的三种等义改写 | 3 水平 |
共 2×2×3 = 12 个 prompt 变体 × 6 个目标模型 × 400 个 HarmBench 行为 = 28 812 次判定。并且控制组:judge 模型固定为 Claude Sonnet 4-6(避免 judge 模型自身的方差干扰)。
关键发现:
- 跨 12 个 prompt 变体,有害响应率(ASR)波动最大 24.2 pp。
- 即使只做"同条件的语义等价改写",波动仍可达 20.1 pp——说明这不是"不同意图"造成的,而是"表面 wording"造成的。
- 模型排名不全稳定(Kendall τ = 0.89),对"谁更安全"这一实务问题直接有影响。
- 不同 harm 类别敏感度差异巨大:copyright 39.6 pp,harassment 接近 0 pp——说明 judge 在某些"社会共识明确"的类别上稳定,在"法律/边界判断"类别上极不稳定。
与现有工作的关键区别:此前的 benchmark 稳定性研究主要关注"数据污染"或"prompt 被模型记忆",而本文把焦点直接锁定在"评判流水线中最被忽视的一环——judge prompt 本身"。结论有直接可操作性:任何号称"某模型在 HarmBench 上 ASR 为 X%"的论文,如果没公开 judge prompt,这个数字就无法相互比较。
https://arxiv.org/abs/2402.04249
https://arxiv.org/abs/2306.05685
https://arxiv.org/abs/2310.11324
https://arxiv.org/abs/2307.04657
https://arxiv.org/abs/2310.03693
https://arxiv.org/abs/2401.05561
https://arxiv.org/abs/2311.01964
- 规模:28 812 次 judge 判定、6 个目标模型、400 个 HarmBench 行为——是此前此类敏感性分析中最大规模。
- 关键数字:Prompt 措辞一个词之差 → ASR 最大偏移 24.2 pp;语义等价改写仍偏移 20.1 pp;category 维度最大 39.6 pp(copyright)。
- 模型排名稳定性:Kendall τ 平均 0.89——中等偏低,意味着"哪家模型更安全"的排名会随 judge prompt 变化而反转。
- 多 judge 扩展:额外做的 3-judge 模型实验进一步表明 judge 模型本身贡献了"与 prompt 方差可比"的额外不稳定。
这是方向内最值得重视的方法学警示:安全 benchmark 的"分数"不是模型属性,而是"模型 × judge × prompt × 类别"的联合属性。它为 Benchmark 设计提供了直接的改进抓手——新 safety benchmark 至少要附带一个"judge sensitivity report"(多 prompt / 多 judge / Kendall τ 三件套),否则结果不可信。这可直接作为你后续 benchmark 工作的"默认规范"。
对 harness 的启发是直接的——"judge" 必须作为 harness 的一等公民参数,而不是隐藏在评测脚本内部。harness 应当默认支持"同一组样本 × N judge 配置"并行评测、并可视化 Kendall τ。可把"judge 可替换 + 全配置记录"列入 harness 设计的 SLA。
Agent safety 的实际部署场景里,judge 常被直接用作"运行时守门员"(guardrail)。本文指出 judge prompt 一个词就能造成 20 pp 漂移——这直接推翻了"用一个 LLM judge 做稳定的运行时 policy 决定"的可行性假设。给 Agent Skills Safety 的启示是:技能权限决策不能只靠单个 judge,必须多 judge 集成 + 不确定性感知 + 人类兜底三层并用。
- GAIA-v2-LILT — Kim et al. (2026) — Agent benchmark 多语言适配的"验真"流水线,揭示 MT 翻译的 benchmark 变异
https://arxiv.org/abs/2604.24929 - AISafetyBenchExplorer — (2026) — metric-aware 目录,揭示 AI 安全 benchmark 测量碎片化与治理薄弱
https://arxiv.org/abs/2604.12875 - Uni-SafeBench — Peng et al. (2026) — 统一多模态大模型的全方位安全评测,提出 Uni-Judger 分离上下文安全与内在安全
https://arxiv.org/abs/2604.00547
注:该论文已被 ICIC 2026 接收,正式版将收录于 Springer CCIS;arXiv v1 中未附代码仓库,28 812 条判定结果的复现数据请关注正式会议版本。