2026-04-29 #2 · Safety Benchmark · Daily Paper Tracker

今日 Benchmark 方向候选评分对比（共 6 篇）

标题（简）	方向细分	来源	综合分
How Sensitive Are Safety Benchmarks to Judge Configuration…今日选定	Benchmark Measurement Science	arXiv 2026-04-27 · 将收录于 ICIC 2026 / Springer CCIS	93
GAIA-v2-LILT: Multilingual Adaptation of Agent Benchmark	Multilingual Benchmark	arXiv 2026-04-27	86
Cross-Session Threats in AI Agents	Agent Safety Benchmark	arXiv 2026-04-22	82
AISafetyBenchExplorer	Meta-Benchmark	arXiv 2026-04-14	81
Uni-SafeBench for Unified Multimodal Large Models	Multimodal Safety Benchmark	arXiv 2026-04-01	80
WebForge: Browser Agent Benchmark	Browser Agent Benchmark	arXiv 2026-04-13	78

论文基本信息

作者Xinran Zhang

机构（按论文提交信息为独立作者提交，单位未在 arXiv 元数据中披露；将收录于 Springer CCIS 会议正式版本）

发表状态arXiv 预印本 / ICIC 2026 接收（Springer CCIS）

首次提交2026 年 4 月 27 日

原文链接https://arxiv.org/abs/2604.24074

PDF 链接https://arxiv.org/pdf/2604.24074v1

DOI10.48550/arXiv.2604.24074

主分类cs.CL（Computation and Language）

一句话核心贡献

      用 2×2×3 因子实验证明：仅仅改动 Judge Prompt 的措辞（Judge 模型不变）就能让 HarmBench 上的"有害响应率"偏移最多 24.2 个百分点——主流安全 Benchmark 的分数远不如我们以为的稳定。
    

摘要（中文翻译）

HarmBench 等安全 benchmark 依赖 LLM 作为"judge"来判断某条模型响应是否有害，但"judge 配置"——即 judge 模型和 judge prompt 的组合——通常被当作一个固定的实现细节。本文证明这个假设是成问题的。

作者使用 2×2×3 的因子设计，沿"评估结构"和"指令框架"两个轴构造 12 种 judge prompt 变体，固定使用同一个 judge 模型（Claude Sonnet 4-6）。在 6 个目标模型、400 个 HarmBench 行为上累计生成 28 812 次判定。结果：仅仅 prompt 措辞（holding judge 模型不变）就能让测得的"有害响应率"偏移 最多 24.2 个百分点；即使在同一条件内做语义相近的表面改写，摆动也可达 20.1 个百分点。模型安全排名的稳定性中等偏低（Kendall τ = 0.89），其中 copyright 类别的敏感性高达 39.6 pp，而 harassment 类别几乎不受影响。额外的多 judge 模型实验（3 个 judge 模型）显示 judge 模型本身也会引入更多方差。整体结论：judge prompt 措辞是此前被严重低估的、对安全测量结果有实质性影响的方差来源。

核心内容解读

解决了什么问题：几乎所有安全 benchmark 最终都依赖一个 "LLM-as-judge"——但各篇论文使用的 judge 模型、prompt 格式、打分 rubric 各不相同，且通常不被当作可变量。这就产生了"同一行为，一个 judge 判为 harmful，另一个判为 safe"的系统性偏差。本文把问题摆上台面：你所测到的"安全分数"，到底有多少是模型的属性、多少是 judge 配置的属性？

核心方法——2×2×3 因子实验：

变量	取值	变量类型
评估结构	binary（有害/安全） vs rubric（多等级）	2 水平
指令框架	"帮助 user 识别 harmful"型 vs "审阅法律风险"型	2 水平
表面改写	同一 prompt 的三种等义改写	3 水平

共 2×2×3 = 12 个 prompt 变体 × 6 个目标模型 × 400 个 HarmBench 行为 = 28 812 次判定。并且控制组：judge 模型固定为 Claude Sonnet 4-6（避免 judge 模型自身的方差干扰）。

关键发现：

跨 12 个 prompt 变体，有害响应率（ASR）波动最大 24.2 pp。
即使只做"同条件的语义等价改写"，波动仍可达 20.1 pp——说明这不是"不同意图"造成的，而是"表面 wording"造成的。
模型排名不全稳定（Kendall τ = 0.89），对"谁更安全"这一实务问题直接有影响。
不同 harm 类别敏感度差异巨大：copyright 39.6 pp，harassment 接近 0 pp——说明 judge 在某些"社会共识明确"的类别上稳定，在"法律/边界判断"类别上极不稳定。

与现有工作的关键区别：此前的 benchmark 稳定性研究主要关注"数据污染"或"prompt 被模型记忆"，而本文把焦点直接锁定在"评判流水线中最被忽视的一环——judge prompt 本身"。结论有直接可操作性：任何号称"某模型在 HarmBench 上 ASR 为 X%"的论文，如果没公开 judge prompt，这个数字就无法相互比较。

本文引用的关键文献（附链接）

Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal（本文实验的基础 benchmark）
https://arxiv.org/abs/2402.04249

Zheng et al. (2023) — Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena（LLM-as-judge 范式奠基）
https://arxiv.org/abs/2306.05685

Sclar et al. (2024) — Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design（早期发现 prompt 措辞的剧烈影响）
https://arxiv.org/abs/2310.11324

Ji et al. (2024) — BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset（带类别标签的 harmful 语料）
https://arxiv.org/abs/2307.04657

Qi et al. (2024) — Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To
https://arxiv.org/abs/2310.03693

Sun et al. (2024) — TrustLLM: Trustworthiness in Large Language Models（Trust & Safety Benchmark 综述）
https://arxiv.org/abs/2401.05561

Zhou et al. (2024) — Don't Make Your LLM an Evaluation Benchmark Cheater（污染与 judge 偏差问题）
https://arxiv.org/abs/2311.01964

核心数据亮点

规模：28 812 次 judge 判定、6 个目标模型、400 个 HarmBench 行为——是此前此类敏感性分析中最大规模。
关键数字：Prompt 措辞一个词之差 → ASR 最大偏移 24.2 pp；语义等价改写仍偏移 20.1 pp；category 维度最大 39.6 pp（copyright）。
模型排名稳定性：Kendall τ 平均 0.89——中等偏低，意味着"哪家模型更安全"的排名会随 judge prompt 变化而反转。
多 judge 扩展：额外做的 3-judge 模型实验进一步表明 judge 模型本身贡献了"与 prompt 方差可比"的额外不稳定。

对你三个研究方向的启发

Safety Benchmark（本方向）

这是方向内最值得重视的方法学警示：安全 benchmark 的"分数"不是模型属性，而是"模型 × judge × prompt × 类别"的联合属性。它为 Benchmark 设计提供了直接的改进抓手——新 safety benchmark 至少要附带一个"judge sensitivity report"（多 prompt / 多 judge / Kendall τ 三件套），否则结果不可信。这可直接作为你后续 benchmark 工作的"默认规范"。

Harness Engineering

对 harness 的启发是直接的——"judge" 必须作为 harness 的一等公民参数，而不是隐藏在评测脚本内部。harness 应当默认支持"同一组样本 × N judge 配置"并行评测、并可视化 Kendall τ。可把"judge 可替换 + 全配置记录"列入 harness 设计的 SLA。

Agent Skills Safety

Agent safety 的实际部署场景里，judge 常被直接用作"运行时守门员"（guardrail）。本文指出 judge prompt 一个词就能造成 20 pp 漂移——这直接推翻了"用一个 LLM judge 做稳定的运行时 policy 决定"的可行性假设。给 Agent Skills Safety 的启示是：技能权限决策不能只靠单个 judge，必须多 judge 集成 + 不确定性感知 + 人类兜底三层并用。

安全 Benchmark 有多依赖"评判者配置"？——Judge Prompt 一词之差就能让分数差 24.2 个百分点