| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| AcademiClaw: When Students Set Challenges for AI Agents今日选定 | 真实学术长任务 + 五类安全审计 | arXiv 2026-05-04 (Yu, Liu et al., 77 作者) | 94 |
| An Empirical Study of Agent Skills for Healthcare | 557 个医疗 skills 跨 10 维度审计 | arXiv 2026-05-04 (Xu, Tang et al.) | 91 |
| ESARBench: Agentic UAV Embodied Search and Rescue | UE5+AirSim 600 任务 SAR benchmark | arXiv 2026-05-02 (Zhang, Chen et al.) | 90 |
| The Price of Agreement: LLM Sycophancy in Financial Apps | 金融 Agent 谄媚行为基准 | arXiv 2026-04-28 (Zhao, Balagopalan et al.) | 88 |
| OS-SPEAR: Toolkit for OS Agents (S/P/E/R) | 22 个 OS Agent 跨 4 维评测工具 | arXiv 2026-04-28 (Wu, Hua et al.) | 90 |
OpenClaw 生态目前的 benchmark 几乎只评估"助理级"任务,"学术级"能力仍未被系统衡量。我们提出 AcademiClaw——一份双语 benchmark,包含 80 道复杂、长时程任务,全部来自大学生真实学术工作流(作业、研究项目、竞赛、个人项目),且都是他们认为"现有 AI Agent 解决得不够好"的题目。从 230 份学生提交、经专家严审后留下 80 道;覆盖 25+ 专业领域,从奥赛级数学/语言学问题到 GPU 级强化学习与全栈系统调试;其中 16 道需要 CUDA GPU 执行。
每道题在独立 Docker 沙箱中执行,按多维 rubric 计分(六类互补技术),并附独立的五类安全审计给出行为分析。在 6 个前沿模型上的实验显示,最强者仅 55% 通过率。进一步分析揭示:跨任务领域有明显能力边界、模型行为策略分化显著、token 消耗和输出质量之间关系松散——这些细粒度诊断信号是聚合指标无法呈现的。我们希望 AcademiClaw 与其开源数据/代码能成为社区资源,推动 Agent 在真实学术需求上变得更可靠、通用。
解决了什么问题:过去一周 Benchmark 主线密集发布——BenchGuard 审 benchmark 本身、Judge Sensitivity 揭 judge 偏移、CSTM-Bench 看跨会话威胁、Claw-Eval-Live 实时刷新、CarryOnBench 双目标 safety×utility、RedVLA 物理红队、SafetyALFRED 厨房安全。这些工作各自补全了某个角度,但题目都是研究者出。AcademiClaw 第一次把"谁来出题"作为研究对象——让真实的学生,把"AI 没能帮我做完的真任务"作为 benchmark item。
四个关键设计选择:
| 关键选择 | 具体做法 | 解决了什么 |
|---|---|---|
| 题源 = 学生提交 | 从 230 份学生提交里筛出 80 道,研究者只做"专家审"过滤 | 避免研究者出题的 publication-bias,让分布贴近"真用户实际遇到的难题" |
| 双语 + 25+ 领域 | 覆盖中英文,从奥数到 GPU 级 RL 到全栈调试 | 让 benchmark 不被任何单一文化或单一学科绑死 |
| 16 个 CUDA 任务 | 必须真的跑起来 GPU 训练 / 推理 | 把"能写 CUDA 代码"和"能跑通 CUDA 系统"区分开 |
| 多维 rubric + 五类安全审计 | 六类技术互补打分;安全审计独立做行为分析 | 避免"通过率 = 任务质量"单点失效;保留可解释诊断信号 |
实验关键发现:
- 最强前沿模型仅 55% 通过率:这是"研究者出题已饱和的 SWE-bench / GAIA"和"真实学生题"之间的差距——80 道题里,有 45% 落在最强 Agent 也搞不定的区域。
- 能力边界突变:同一模型在某领域 80%、邻近领域跌到 20%,能力曲线极不平滑。这意味着平均通过率会严重高估单领域可靠性。
- token 与质量解耦:多花 token 不等于更好答案——这与 inference-time scaling 的乐观叙事矛盾,提示需要单独衡量"花 token 的边际价值"。
与现有工作的核心差异:
- 对比 GAIA / AgentBench / Claw-Eval-Live:它们的题目都由研究者撰写或半自动构造;AcademiClaw 把"题目分布"本身从"benchmark 设计选择"还原成"真实需求样本"。
- 对比 SWE-bench Verified:SWE-bench 的题源是 GitHub issues(产业语料);AcademiClaw 是学习者语料——这两类数据揭示的能力边界差异巨大。
- 独立安全审计:五类安全审计与任务通过率独立报告——这与今天 Agent Safety 的 BOA 框架"安全应当被独立度量"思想完全一致。
arxiv.org/abs/2311.12983
arxiv.org/abs/2308.03688
arxiv.org/abs/2310.06770
openclaw.ai
arxiv.org/abs/2604.27093
arxiv.org/abs/2605.01644
- "学生出题" vs "研究者出题"差距巨大:SWE-bench / GAIA 的 SOTA 通过率已超 70-80%;AcademiClaw 上 SOTA 仅 55%——同一批前沿模型,更换题源后掉了 15-25 个百分点。
- 跨域能力锯齿:论文揭示"sharp capability boundaries across task domains"——平均分掩盖了模型在某些领域不具备最低工作可靠性。
- token 与质量解耦:论文明确指出"token 消耗与输出质量脱节"——这是首次有 benchmark 把 cost-quality decoupling 当一等公民报告。
- 独立的五类安全审计:与任务通过率正交报告,避免"安全分被任务通过率稀释"——和 BOA 的"安全应被独立度量"原则呼应。
- 16 个 CUDA 任务:把"能写代码"与"能让 GPU 真正跑通"分开评估,迄今最严苛的可执行环境之一。
AcademiClaw 把"题源采集"本身做成 harness 的一部分——这是 VeRO / AgentPulse 这条主线还没充分覆盖的环节。建议把"题源采集 pipeline"(学生提交 + 专家审)写成 harness 模块——它是 benchmark 健康度的根,比"打分函数"更早决定结论的可信度。配合 16 个 CUDA 任务的 Docker 沙箱设计,AcademiClaw 实际上提供了"带 GPU 的可复现 harness"的最小可行实现。
"五类安全审计 × 任务通过率"正交报告这一格式应成为业内标准——这与今天 Agent Safety 主线(BOA 把安全做成独立的 P(safe) 标量)完全一致。如果你正在写 Agent Safety paper,建议直接把 AcademiClaw 的安全审计接入做对照——它可以成为"真实长任务下的安全 + 能力联合数据点"的 baseline。
这一篇论文为"Safety Benchmark v2 时代"指明了三个方向:(a) 题源去研究者化——让用户/学生提交,研究者只做审核;(b) 独立安全审计——和能力分正交报告,避免"高分掩盖高危";(c) cost-quality 解耦诊断——把 inference-time scaling 的边际效用单独汇报。后续 Safety Benchmark 工作如果忽略这三点,很可能会被认为已经过时。
- An Empirical Study of Agent Skills for Healthcare — Xu, Tang et al. (2026) · 557 个医疗 skills 跨 10 维度审计
arxiv.org/abs/2605.02709 - ESARBench — Zhang, Chen et al. (2026) · UE5+AirSim 搜救 Agent benchmark
arxiv.org/abs/2605.01371 - OS-SPEAR — Wu, Hua et al. (2026) · OS Agent 四维评测工具
arxiv.org/abs/2604.24348 - BOA: Principled Framework for Agent Safety Measurement — Lin, Suri, Oprea, Tan (2026)
arxiv.org/abs/2605.01644