2026-04-29 #1 · Safety Benchmark · Daily Paper Tracker

今日候选论文评分对比（arXiv 近 4 周，共 8 篇）

标题（简）	子方向	来源	综合分
BenchGuard: Automated Auditing of Agent Benchmarks…今日选定	Benchmark 审计	arXiv 2026-04-27	91
How Sensitive Are Safety Benchmarks to Judge Config	Benchmark 方法论	arXiv 2026-04-27	87
GAIA-v2-LILT: 多语言 Agent Benchmark	多语言 Agent	arXiv 2026-04-27	83
Cross-Session Threats in AI Agents	跨会话安全	arXiv 2026-04-22	82
AISafetyBenchExplorer: 195 个安全 Benchmark 目录	Benchmark 治理	arXiv 2026-04-14	80
WebForge: 浏览器 Agent Benchmark	Web Agent	arXiv 2026-04-13	78
Uni-SafeBench: Unified 多模态安全评测	多模态安全	arXiv 2026-04-01	76
PHMForge: 工业资产维护 Agent Benchmark	领域 Benchmark	arXiv 2026-04-02	72

论文基本信息

作者（共 6 位） Xinming Tu, Tianze Wang, Yingzhou (Minta) Lu, Kexin Huang, Yuanhao Qu, Sara Mostafavi

机构华盛顿大学 / 斯坦福大学（Kexin Huang）/ Minta Labs 等（基于作者历史归属推断）

发表状态 arXiv 预印本 v1，cs.CL / cs.AI / cs.SE

提交日期 2026 年 4 月 27 日

arXiv 链接 https://arxiv.org/abs/2604.24955

PDF 链接 https://arxiv.org/pdf/2604.24955

DOI 10.48550/arXiv.2604.24955

在线 HTML 版 arxiv.org/html/2604.24955v1

一句话核心贡献

      首个用前沿 LLM 自动审计 Agent Benchmark 自身质量的框架，以 <15 美元成本命中 83.3% 专家标注缺陷，揭示"失败是 Benchmark 的，不是 Agent 的"。
    

摘要（中文翻译）

随着 Benchmark 越来越复杂，许多看似"Agent 失败"的案例其实根本不是 Agent 的失败——而是 Benchmark 自身的失败：规范写错、隐性假设、评测脚本过于僵化以至于惩罚掉一切合理的替代解法。我们提出用前沿 LLM 作为评估基础设施本身的系统性审计员，并通过 BenchGuard 将这一愿景落地。

BenchGuard 是首个面向任务型、执行式 Agent Benchmark 的自动审计框架。它通过结构化的 LLM 协议对 Benchmark 的所有工件进行交叉验证，可选地结合 Agent 的解答或执行轨迹作为额外诊断证据。

在两个顶级科学 Benchmark 上部署：对 ScienceAgentBench，BenchGuard 识别出 12 个被作者确认的问题，其中包含让任务本身无法完成的致命错误；对 BIXBench Verified-50 子集，与人类专家的结果重合率为 83.3%，并发现了人类 review 完全遗漏的缺陷。完整审计 50 个复杂生信任务总成本不到 15 美元。结论：AI 不仅可以作为评估对象，更可以成为评估基础设施的主动审计员。

核心内容解读

解决了什么问题：AI Safety Benchmark 数量在过去两年爆炸式增长（AISafetyBenchExplorer 统计 2018–2026 共 195 个），但这些 Benchmark 本身的质量几乎从未被系统审计。破损的 ground truth、过严格的字符串匹配脚本、含糊的 rubric、隐式环境假设……这些"Benchmark bug"会让排行榜变得毫无意义。本文问：谁来给 Benchmark 打分？

方法架构：

审计步骤	LLM 扮演角色	产出
工件解析	结构化阅读：任务规范、Groundtruth、评分脚本	结构化 JSON 表示 + 一致性卡片
交叉验证	规范 ↔ GT ↔ 脚本两两互检	标注矛盾点（如"规范要 CSV、GT 为 TSV、脚本 strict match"）
证据增强	可选：读入 Agent 解答 / 执行轨迹	识别"脚本错杀"而非"Agent 错答"
报告生成	按严重程度分级	Fatal / Major / Minor 三档问题清单

与现有工作的关键区别：（1）AISafetyBenchExplorer 只做静态目录化；（2）"How Sensitive Are Safety Benchmarks" 一文仅分析 HarmBench 中 Judge Prompt 敏感度（同日期 arXiv）；（3）传统人工 Benchmark review 不可扩展。BenchGuard 是首个把"LLM 作 Auditor"工程化为可批处理、可量化、可报告的闭环系统，真正解决了"Benchmark 也需要自己的 Benchmark"这一 meta 问题。

方法论创新点：（1）"可选加入 Agent 轨迹"让审计能区分"Agent 真的错了"vs."Benchmark 错杀 Agent"，这是以往所有 Benchmark review 不具备的能力；（2）经济学意义的突破——人类专家 review 一个复杂任务成本约 100–200 美元，本文以 0.3 美元/任务达到 83.3% 等效检出率，让"每次 Benchmark 发布前强制 LLM 审计"成为现实可行的工程流程。

本文引用的关键文献（附链接）

Chen et al. (2024) — ScienceAgentBench: Benchmarking Language Agents for Data-Driven Scientific Discovery（审计对象 1）
https://arxiv.org/abs/2410.05080

Huang et al. (2024) — BIXBench: Evaluating LLMs on Real-World Bioinformatics Tasks（审计对象 2）
https://arxiv.org/abs/2408.14034

Solanke (2026) — AISafetyBenchExplorer（AI 安全 Benchmark 目录化研究）
https://arxiv.org/abs/2604.12875

Zhang (2026) — How Sensitive Are Safety Benchmarks to Judge Configuration Choices?（同期 Judge 敏感度研究）
https://arxiv.org/abs/2604.24074

Zheng et al. (2023) — Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena（LLM-as-judge 基础工作）
https://arxiv.org/abs/2306.05685

Liu et al. (2024) — AgentBench: Evaluating LLMs as Agents（Agent Benchmark 代表作）
https://arxiv.org/abs/2308.03688

Jimenez et al. (2023) — SWE-bench（执行式 Benchmark 的里程碑）
https://arxiv.org/abs/2310.06770

Mazumder et al. (2022) — DataPerf: Benchmarks for Data-Centric AI Development（"Benchmark 数据质量"的早期呼吁）
https://arxiv.org/abs/2207.10062

实验结果 / 核心数据亮点

ScienceAgentBench：识别出 12 个作者确认的缺陷，其中包含 fatal error——"题目根本无解"。这直接影响任何在该 Benchmark 上发布的模型排行榜。
BIXBench Verified-50 对比专家：重合率 83.3%；更重要的是，BenchGuard 还抓到了人类 review 彻底遗漏的缺陷，说明它对人类 review 具有互补而非简单替代关系。
成本：50 个复杂生信任务 < 15 美元（约合每任务 0.3 美元），是人工专家审查的 300–600 倍性价比，使"Benchmark 发布前强制自动审计"在经济上完全可行。
方法学意义：引入"AI 参与评估基础设施治理"的新定位——前沿 LLM 不再只是被评对象，也是 Benchmark 的共建与审计参与者。

对三个研究方向的启发

Harness Engineering

BenchGuard 可直接集成进评估 Harness，作为一个"审计层"——每次 Harness 要对 Agent 打分前，先审计当前任务规范/GT/脚本是否自洽。结合 AHE（本仓库今日 Harness 方向论文），BenchGuard 可与 AHE 的"决策可观测性"融合：不仅要审计 Benchmark 是否靠谱，还能同时审计 Harness 的评估脚本是否与 Benchmark 一致。

Agent Skills Safety

对 Agent Skills Safety 而言，本文揭示了重要的二阶风险：如果 Safety Benchmark 本身有 bug（比如对"拒绝"一词的关键字匹配过于粗糙），你得到的"安全率 90%"可能完全是幻觉。未来在发布 Skills Safety 相关 benchmark 时，可把 BenchGuard 作为必经的审计门槛，避免误把"Benchmark 脚本 bug"当作"模型安全突破"。

Safety Benchmark

这篇是方向三里最具启发的元研究：它为你指明了一条完整的研究路径——（1）把 BenchGuard 的思想迁移到 Safety Benchmark（安全场景里 Judge Prompt 和 refusal 判断更主观，自动审计更有价值）；（2）与"How Sensitive Are Safety Benchmarks"联合，形成"审计 + 敏感度分析"双模块；（3）构建 SafetyBenchGuard——一个专门审计 HarmBench/TrustLLM/AgentHarm 等 Safety Benchmark 自身质量的工具链，这极可能成为一个高引用、强社区价值的工作。

BenchGuard：谁来守护 Benchmark 本身？Agent Benchmark 的自动审计