← 总导航 / Safety Benchmark / 2026-05-05 #1
2026 年 5 月 5 日 · Safety Benchmark · Student-Authored Long-Horizon Tasks · 真实学术工作流

AcademiClaw:当大学生给 AI Agent 出题——80 道学生提交的真实学术任务,最强模型只过 55%

AcademiClaw: When Students Set Challenges for AI Agents
综合 94 分 相关度 9.7 来源质量 9.5 近期影响力 9.5 新颖性 9.5 开源复现 9.7
今日 Benchmark 方向候选评分对比(共 5 篇候选)
标题(简)方向细分来源综合分
AcademiClaw: When Students Set Challenges for AI Agents今日选定 真实学术长任务 + 五类安全审计 arXiv 2026-05-04 (Yu, Liu et al., 77 作者) 94
An Empirical Study of Agent Skills for Healthcare 557 个医疗 skills 跨 10 维度审计 arXiv 2026-05-04 (Xu, Tang et al.) 91
ESARBench: Agentic UAV Embodied Search and Rescue UE5+AirSim 600 任务 SAR benchmark arXiv 2026-05-02 (Zhang, Chen et al.) 90
The Price of Agreement: LLM Sycophancy in Financial Apps 金融 Agent 谄媚行为基准 arXiv 2026-04-28 (Zhao, Balagopalan et al.) 88
OS-SPEAR: Toolkit for OS Agents (S/P/E/R) 22 个 OS Agent 跨 4 维评测工具 arXiv 2026-04-28 (Wu, Hua et al.) 90
论文基本信息
AcademiClaw: When Students Set Challenges for AI Agents
AcademiClaw:当大学生给 AI Agent 出题
Junjie Yu et al.(77 位作者,末作者 Pengfei Liu)
GAIR-NLP(GAIR Lab) — 上海交通大学等多机构联合
arXiv 预印本 v1
2026-05-04
cs.AI / cs.CY
80 任务(230 学生提交筛出)· 25+ 专业领域 · 16 个 CUDA 任务
GitHub: GAIR-NLP/AcademiClaw · CC BY 4.0
一句话核心贡献
第一份"由学生出题"的双语 Agent benchmark:80 道真实长任务 + 六技术多维评分 + 五类安全审计,6 个前沿模型最高仅 55%。
摘要(中文翻译,忠实原文)

OpenClaw 生态目前的 benchmark 几乎只评估"助理级"任务,"学术级"能力仍未被系统衡量。我们提出 AcademiClaw——一份双语 benchmark,包含 80 道复杂、长时程任务,全部来自大学生真实学术工作流(作业、研究项目、竞赛、个人项目),且都是他们认为"现有 AI Agent 解决得不够好"的题目。从 230 份学生提交、经专家严审后留下 80 道;覆盖 25+ 专业领域,从奥赛级数学/语言学问题到 GPU 级强化学习与全栈系统调试;其中 16 道需要 CUDA GPU 执行。

每道题在独立 Docker 沙箱中执行,按多维 rubric 计分(六类互补技术),并附独立的五类安全审计给出行为分析。在 6 个前沿模型上的实验显示,最强者仅 55% 通过率。进一步分析揭示:跨任务领域有明显能力边界、模型行为策略分化显著、token 消耗和输出质量之间关系松散——这些细粒度诊断信号是聚合指标无法呈现的。我们希望 AcademiClaw 与其开源数据/代码能成为社区资源,推动 Agent 在真实学术需求上变得更可靠、通用。

核心内容解读(背景·方法·差异)

解决了什么问题:过去一周 Benchmark 主线密集发布——BenchGuard 审 benchmark 本身、Judge Sensitivity 揭 judge 偏移、CSTM-Bench 看跨会话威胁、Claw-Eval-Live 实时刷新、CarryOnBench 双目标 safety×utility、RedVLA 物理红队、SafetyALFRED 厨房安全。这些工作各自补全了某个角度,但题目都是研究者出。AcademiClaw 第一次把"谁来出题"作为研究对象——让真实的学生,把"AI 没能帮我做完的真任务"作为 benchmark item。

四个关键设计选择:

关键选择具体做法解决了什么
题源 = 学生提交从 230 份学生提交里筛出 80 道,研究者只做"专家审"过滤避免研究者出题的 publication-bias,让分布贴近"真用户实际遇到的难题"
双语 + 25+ 领域覆盖中英文,从奥数到 GPU 级 RL 到全栈调试让 benchmark 不被任何单一文化或单一学科绑死
16 个 CUDA 任务必须真的跑起来 GPU 训练 / 推理把"能写 CUDA 代码"和"能跑通 CUDA 系统"区分开
多维 rubric + 五类安全审计六类技术互补打分;安全审计独立做行为分析避免"通过率 = 任务质量"单点失效;保留可解释诊断信号

实验关键发现:

与现有工作的核心差异:

本文对齐 / 借鉴的关键工作(附链接)
Mialon et al. (2023) — GAIA: A Benchmark for General AI Assistants
arxiv.org/abs/2311.12983
Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents
arxiv.org/abs/2308.03688
Jimenez et al. (2023) — SWE-bench(产业级 issue 题源对照)
arxiv.org/abs/2310.06770
OpenClaw — OpenClaw 生态:助理级任务为主(动机引文)
openclaw.ai
Zheng, Morgan et al. (2026) — CarryOnBench(safety×utility 双目标 benchmark 借鉴)
arxiv.org/abs/2604.27093
Lin, Suri, Oprea, Tan (2026) — BOA(独立安全度量思想呼应)
arxiv.org/abs/2605.01644
核心数据亮点 / 关键论点
对你三个研究方向的启发
Harness Engineering

AcademiClaw 把"题源采集"本身做成 harness 的一部分——这是 VeRO / AgentPulse 这条主线还没充分覆盖的环节。建议把"题源采集 pipeline"(学生提交 + 专家审)写成 harness 模块——它是 benchmark 健康度的根,比"打分函数"更早决定结论的可信度。配合 16 个 CUDA 任务的 Docker 沙箱设计,AcademiClaw 实际上提供了"带 GPU 的可复现 harness"的最小可行实现。

Agent Skills Safety

"五类安全审计 × 任务通过率"正交报告这一格式应成为业内标准——这与今天 Agent Safety 主线(BOA 把安全做成独立的 P(safe) 标量)完全一致。如果你正在写 Agent Safety paper,建议直接把 AcademiClaw 的安全审计接入做对照——它可以成为"真实长任务下的安全 + 能力联合数据点"的 baseline。

Safety Benchmark

这一篇论文为"Safety Benchmark v2 时代"指明了三个方向:(a) 题源去研究者化——让用户/学生提交,研究者只做审核;(b) 独立安全审计——和能力分正交报告,避免"高分掩盖高危";(c) cost-quality 解耦诊断——把 inference-time scaling 的边际效用单独汇报。后续 Safety Benchmark 工作如果忽略这三点,很可能会被认为已经过时。

相关延伸阅读
资源链接