2026-05-05 #1 · Safety Benchmark · Daily Paper Tracker

今日 Benchmark 方向候选评分对比（共 5 篇候选）

标题（简）	方向细分	来源	综合分
AcademiClaw: When Students Set Challenges for AI Agents今日选定	真实学术长任务 + 五类安全审计	arXiv 2026-05-04 (Yu, Liu et al., 77 作者)	94
An Empirical Study of Agent Skills for Healthcare	557 个医疗 skills 跨 10 维度审计	arXiv 2026-05-04 (Xu, Tang et al.)	91
ESARBench: Agentic UAV Embodied Search and Rescue	UE5+AirSim 600 任务 SAR benchmark	arXiv 2026-05-02 (Zhang, Chen et al.)	90
The Price of Agreement: LLM Sycophancy in Financial Apps	金融 Agent 谄媚行为基准	arXiv 2026-04-28 (Zhao, Balagopalan et al.)	88
OS-SPEAR: Toolkit for OS Agents (S/P/E/R)	22 个 OS Agent 跨 4 维评测工具	arXiv 2026-04-28 (Wu, Hua et al.)	90

论文基本信息

英文标题AcademiClaw: When Students Set Challenges for AI Agents

中文标题AcademiClaw：当大学生给 AI Agent 出题

作者Junjie Yu et al.（77 位作者，末作者 Pengfei Liu）

机构GAIR-NLP（GAIR Lab） — 上海交通大学等多机构联合

发表状态arXiv 预印本 v1

提交时间2026-05-04

arXiv 链接https://arxiv.org/abs/2605.02661

PDF 链接https://arxiv.org/pdf/2605.02661

DOI10.48550/arXiv.2605.02661

分类cs.AI / cs.CY

规模80 任务（230 学生提交筛出）· 25+ 专业领域 · 16 个 CUDA 任务

开源GitHub: GAIR-NLP/AcademiClaw · CC BY 4.0

一句话核心贡献

      第一份"由学生出题"的双语 Agent benchmark：80 道真实长任务 + 六技术多维评分 + 五类安全审计，6 个前沿模型最高仅 55%。
    

摘要（中文翻译，忠实原文）

OpenClaw 生态目前的 benchmark 几乎只评估"助理级"任务，"学术级"能力仍未被系统衡量。我们提出 AcademiClaw——一份双语 benchmark，包含 80 道复杂、长时程任务，全部来自大学生真实学术工作流（作业、研究项目、竞赛、个人项目），且都是他们认为"现有 AI Agent 解决得不够好"的题目。从 230 份学生提交、经专家严审后留下 80 道；覆盖 25+ 专业领域，从奥赛级数学/语言学问题到 GPU 级强化学习与全栈系统调试；其中 16 道需要 CUDA GPU 执行。

每道题在独立 Docker 沙箱中执行，按多维 rubric 计分（六类互补技术），并附独立的五类安全审计给出行为分析。在 6 个前沿模型上的实验显示，最强者仅 55% 通过率。进一步分析揭示：跨任务领域有明显能力边界、模型行为策略分化显著、token 消耗和输出质量之间关系松散——这些细粒度诊断信号是聚合指标无法呈现的。我们希望 AcademiClaw 与其开源数据/代码能成为社区资源，推动 Agent 在真实学术需求上变得更可靠、通用。

核心内容解读（背景·方法·差异）

解决了什么问题：过去一周 Benchmark 主线密集发布——BenchGuard 审 benchmark 本身、Judge Sensitivity 揭 judge 偏移、CSTM-Bench 看跨会话威胁、Claw-Eval-Live 实时刷新、CarryOnBench 双目标 safety×utility、RedVLA 物理红队、SafetyALFRED 厨房安全。这些工作各自补全了某个角度，但题目都是研究者出。AcademiClaw 第一次把"谁来出题"作为研究对象——让真实的学生，把"AI 没能帮我做完的真任务"作为 benchmark item。

四个关键设计选择：

关键选择	具体做法	解决了什么
题源 = 学生提交	从 230 份学生提交里筛出 80 道，研究者只做"专家审"过滤	避免研究者出题的 publication-bias，让分布贴近"真用户实际遇到的难题"
双语 + 25+ 领域	覆盖中英文，从奥数到 GPU 级 RL 到全栈调试	让 benchmark 不被任何单一文化或单一学科绑死
16 个 CUDA 任务	必须真的跑起来 GPU 训练 / 推理	把"能写 CUDA 代码"和"能跑通 CUDA 系统"区分开
多维 rubric + 五类安全审计	六类技术互补打分；安全审计独立做行为分析	避免"通过率 = 任务质量"单点失效；保留可解释诊断信号

实验关键发现：

最强前沿模型仅 55% 通过率：这是"研究者出题已饱和的 SWE-bench / GAIA"和"真实学生题"之间的差距——80 道题里，有 45% 落在最强 Agent 也搞不定的区域。
能力边界突变：同一模型在某领域 80%、邻近领域跌到 20%，能力曲线极不平滑。这意味着平均通过率会严重高估单领域可靠性。
token 与质量解耦：多花 token 不等于更好答案——这与 inference-time scaling 的乐观叙事矛盾，提示需要单独衡量"花 token 的边际价值"。

与现有工作的核心差异：

对比 GAIA / AgentBench / Claw-Eval-Live：它们的题目都由研究者撰写或半自动构造；AcademiClaw 把"题目分布"本身从"benchmark 设计选择"还原成"真实需求样本"。
对比 SWE-bench Verified：SWE-bench 的题源是 GitHub issues（产业语料）；AcademiClaw 是学习者语料——这两类数据揭示的能力边界差异巨大。
独立安全审计：五类安全审计与任务通过率独立报告——这与今天 Agent Safety 的 BOA 框架"安全应当被独立度量"思想完全一致。

本文对齐 / 借鉴的关键工作（附链接）

Mialon et al. (2023) — GAIA: A Benchmark for General AI Assistants
arxiv.org/abs/2311.12983

Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents
arxiv.org/abs/2308.03688

Jimenez et al. (2023) — SWE-bench（产业级 issue 题源对照）
arxiv.org/abs/2310.06770

OpenClaw — OpenClaw 生态：助理级任务为主（动机引文）
openclaw.ai

Zheng, Morgan et al. (2026) — CarryOnBench（safety×utility 双目标 benchmark 借鉴）
arxiv.org/abs/2604.27093

Lin, Suri, Oprea, Tan (2026) — BOA（独立安全度量思想呼应）
arxiv.org/abs/2605.01644

核心数据亮点 / 关键论点

"学生出题" vs "研究者出题"差距巨大：SWE-bench / GAIA 的 SOTA 通过率已超 70-80%；AcademiClaw 上 SOTA 仅 55%——同一批前沿模型，更换题源后掉了 15-25 个百分点。
跨域能力锯齿：论文揭示"sharp capability boundaries across task domains"——平均分掩盖了模型在某些领域不具备最低工作可靠性。
token 与质量解耦：论文明确指出"token 消耗与输出质量脱节"——这是首次有 benchmark 把 cost-quality decoupling 当一等公民报告。
独立的五类安全审计：与任务通过率正交报告，避免"安全分被任务通过率稀释"——和 BOA 的"安全应被独立度量"原则呼应。
16 个 CUDA 任务：把"能写代码"与"能让 GPU 真正跑通"分开评估，迄今最严苛的可执行环境之一。

对你三个研究方向的启发

Harness Engineering

AcademiClaw 把"题源采集"本身做成 harness 的一部分——这是 VeRO / AgentPulse 这条主线还没充分覆盖的环节。建议把"题源采集 pipeline"（学生提交 + 专家审）写成 harness 模块——它是 benchmark 健康度的根，比"打分函数"更早决定结论的可信度。配合 16 个 CUDA 任务的 Docker 沙箱设计，AcademiClaw 实际上提供了"带 GPU 的可复现 harness"的最小可行实现。

Agent Skills Safety

"五类安全审计 × 任务通过率"正交报告这一格式应成为业内标准——这与今天 Agent Safety 主线（BOA 把安全做成独立的 P(safe) 标量）完全一致。如果你正在写 Agent Safety paper，建议直接把 AcademiClaw 的安全审计接入做对照——它可以成为"真实长任务下的安全 + 能力联合数据点"的 baseline。

Safety Benchmark

这一篇论文为"Safety Benchmark v2 时代"指明了三个方向：(a) 题源去研究者化——让用户/学生提交，研究者只做审核；(b) 独立安全审计——和能力分正交报告，避免"高分掩盖高危"；(c) cost-quality 解耦诊断——把 inference-time scaling 的边际效用单独汇报。后续 Safety Benchmark 工作如果忽略这三点，很可能会被认为已经过时。

AcademiClaw：当大学生给 AI Agent 出题——80 道学生提交的真实学术任务，最强模型只过 55%