← 总导航 / Safety Benchmark / 2026-04-29 #2
2026 年 4 月 29 日 · Safety Benchmark · Judge Robustness · Measurement Science

安全 Benchmark 有多依赖"评判者配置"?——Judge Prompt 一词之差就能让分数差 24.2 个百分点

How Sensitive Are Safety Benchmarks to Judge Configuration Choices?
综合 93 分 相关度 9.7 来源质量 9.2 近期影响力 9.0 新颖性 9.5 开源复现 8.5
今日 Benchmark 方向候选评分对比(共 6 篇)
标题(简)方向细分来源综合分
How Sensitive Are Safety Benchmarks to Judge Configuration…今日选定 Benchmark Measurement Science arXiv 2026-04-27 · 将收录于 ICIC 2026 / Springer CCIS 93
GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark Multilingual Benchmark arXiv 2026-04-27 86
Cross-Session Threats in AI Agents Agent Safety Benchmark arXiv 2026-04-22 82
AISafetyBenchExplorer Meta-Benchmark arXiv 2026-04-14 81
Uni-SafeBench for Unified Multimodal Large Models Multimodal Safety Benchmark arXiv 2026-04-01 80
WebForge: Browser Agent Benchmark Browser Agent Benchmark arXiv 2026-04-13 78
论文基本信息
Xinran Zhang
(按论文提交信息为独立作者提交,单位未在 arXiv 元数据中披露;将收录于 Springer CCIS 会议正式版本)
arXiv 预印本 / ICIC 2026 接收(Springer CCIS)
2026 年 4 月 27 日
cs.CL(Computation and Language)
一句话核心贡献
用 2×2×3 因子实验证明:仅仅改动 Judge Prompt 的措辞(Judge 模型不变)就能让 HarmBench 上的"有害响应率"偏移最多 24.2 个百分点——主流安全 Benchmark 的分数远不如我们以为的稳定。
摘要(中文翻译)

HarmBench 等安全 benchmark 依赖 LLM 作为"judge"来判断某条模型响应是否有害,但"judge 配置"——即 judge 模型和 judge prompt 的组合——通常被当作一个固定的实现细节。本文证明这个假设是成问题的。

作者使用 2×2×3 的因子设计,沿"评估结构"和"指令框架"两个轴构造 12 种 judge prompt 变体,固定使用同一个 judge 模型(Claude Sonnet 4-6)。在 6 个目标模型、400 个 HarmBench 行为上累计生成 28 812 次判定。结果:仅仅 prompt 措辞(holding judge 模型不变)就能让测得的"有害响应率"偏移 最多 24.2 个百分点;即使在同一条件内做语义相近的表面改写,摆动也可达 20.1 个百分点。模型安全排名的稳定性中等偏低(Kendall τ = 0.89),其中 copyright 类别的敏感性高达 39.6 pp,而 harassment 类别几乎不受影响。额外的多 judge 模型实验(3 个 judge 模型)显示 judge 模型本身也会引入更多方差。整体结论:judge prompt 措辞是此前被严重低估的、对安全测量结果有实质性影响的方差来源

核心内容解读

解决了什么问题:几乎所有安全 benchmark 最终都依赖一个 "LLM-as-judge"——但各篇论文使用的 judge 模型、prompt 格式、打分 rubric 各不相同,且通常不被当作可变量。这就产生了"同一行为,一个 judge 判为 harmful,另一个判为 safe"的系统性偏差。本文把问题摆上台面:你所测到的"安全分数",到底有多少是模型的属性、多少是 judge 配置的属性?

核心方法——2×2×3 因子实验:

变量取值变量类型
评估结构binary(有害/安全) vs rubric(多等级)2 水平
指令框架"帮助 user 识别 harmful"型 vs "审阅法律风险"型2 水平
表面改写同一 prompt 的三种等义改写3 水平

共 2×2×3 = 12 个 prompt 变体 × 6 个目标模型 × 400 个 HarmBench 行为 = 28 812 次判定。并且控制组:judge 模型固定为 Claude Sonnet 4-6(避免 judge 模型自身的方差干扰)。

关键发现:


与现有工作的关键区别:此前的 benchmark 稳定性研究主要关注"数据污染"或"prompt 被模型记忆",而本文把焦点直接锁定在"评判流水线中最被忽视的一环——judge prompt 本身"。结论有直接可操作性:任何号称"某模型在 HarmBench 上 ASR 为 X%"的论文,如果没公开 judge prompt,这个数字就无法相互比较。

本文引用的关键文献(附链接)
Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal(本文实验的基础 benchmark)
https://arxiv.org/abs/2402.04249
Zheng et al. (2023) — Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena(LLM-as-judge 范式奠基)
https://arxiv.org/abs/2306.05685
Sclar et al. (2024) — Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design(早期发现 prompt 措辞的剧烈影响)
https://arxiv.org/abs/2310.11324
Ji et al. (2024) — BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset(带类别标签的 harmful 语料)
https://arxiv.org/abs/2307.04657
Qi et al. (2024) — Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To
https://arxiv.org/abs/2310.03693
Sun et al. (2024) — TrustLLM: Trustworthiness in Large Language Models(Trust & Safety Benchmark 综述)
https://arxiv.org/abs/2401.05561
Zhou et al. (2024) — Don't Make Your LLM an Evaluation Benchmark Cheater(污染与 judge 偏差问题)
https://arxiv.org/abs/2311.01964
核心数据亮点
对你三个研究方向的启发
Safety Benchmark(本方向)

这是方向内最值得重视的方法学警示:安全 benchmark 的"分数"不是模型属性,而是"模型 × judge × prompt × 类别"的联合属性。它为 Benchmark 设计提供了直接的改进抓手——新 safety benchmark 至少要附带一个"judge sensitivity report"(多 prompt / 多 judge / Kendall τ 三件套),否则结果不可信。这可直接作为你后续 benchmark 工作的"默认规范"。

Harness Engineering

对 harness 的启发是直接的——"judge" 必须作为 harness 的一等公民参数,而不是隐藏在评测脚本内部。harness 应当默认支持"同一组样本 × N judge 配置"并行评测、并可视化 Kendall τ。可把"judge 可替换 + 全配置记录"列入 harness 设计的 SLA。

Agent Skills Safety

Agent safety 的实际部署场景里,judge 常被直接用作"运行时守门员"(guardrail)。本文指出 judge prompt 一个词就能造成 20 pp 漂移——这直接推翻了"用一个 LLM judge 做稳定的运行时 policy 决定"的可行性假设。给 Agent Skills Safety 的启示是:技能权限决策不能只靠单个 judge,必须多 judge 集成 + 不确定性感知 + 人类兜底三层并用。

相关延伸阅读
资源链接

注:该论文已被 ICIC 2026 接收,正式版将收录于 Springer CCIS;arXiv v1 中未附代码仓库,28 812 条判定结果的复现数据请关注正式会议版本。