← 总导航 / Safety Benchmark / 2026-05-01 #1
2026 年 5 月 1 日 · Safety Benchmark · Live Benchmark · Workflow Agent

Claw-Eval-Live:首个"实时刷新"Agent 工作流基准——13 个前沿模型最高通过率仅 66.7%

Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows
综合 94 分 相关度 10.0 来源质量 9.0 近期影响力 9.8 新颖性 9.6 开源复现 8.8
今日 Benchmark 方向候选评分对比(共 5 篇)
标题(简)方向细分来源综合分
Claw-Eval-Live: Live Agent Benchmark for Evolving Workflows今日选定 Live / Refreshable Benchmark arXiv 2026-04-30 94
What Makes a Good Terminal-Agent Benchmark Task Benchmark 方法论 arXiv 2026-04-30 90
GAIA-v2-LILT: Multilingual Agent Benchmark 多语种 Agent 评测 arXiv 2026-04-27 86
WebForge: Realism-Reproducibility-Scalability Trilemma Web Agent Benchmark 架构 arXiv 2026-04-13 84
Spatial Atlas: Compute-Grounded Spatial Research Agent Benchmark 科研 Agent 空间推理 arXiv 2026-04-13 (v2) 82
论文基本信息
Chenxin Li, Zhengyang Tang, Huangxin Lin, Yunlong Lin, Shijue Huang, Shengyuan Liu, Bowen Ye, Rang Li, Lei Li, Benyou Wang, Yixuan Yuan
cs.SE / cs.AI — Agent 工作流评测
arXiv 预印本,v1
2026 年 4 月 30 日(昨日新发)
ClawHub Top-500 公共工作流需求信号
一句话核心贡献
把 agent benchmark 从"一次发布、长期冻结"升级为"可刷新信号层 + 可复现快照层"双层结构,105 道任务让前沿模型最高仅 66.7% 通过、全榜无人破 70%。
摘要(中文翻译)

LLM Agent 被寄望于完成跨软件工具、商业服务、本地工作空间的端到端工作单元。但大多数 agent 基准在发布时就把任务集冻结,并主要评估最终答复,难以评估 agent 在工作流需求演化时的能力,也难以核验任务是否被真的执行了。

本文提出 Claw-Eval-Live,一个为工作流 agent 设计的 live benchmark,其核心是把两层信号显式分离:(1)可刷新的信号层——跟随发布周期基于公开工作流需求信号持续更新;(2)可复现的时间戳化快照层。每一次发布都来自公共工作流需求信号(本次采用 ClawHub Top-500 技能),并被固化为带固定 fixture、服务、工作区、评分器的受控任务。

评分上,Claw-Eval-Live 同时记录 执行轨迹、审计日志、服务状态和运行后工作区产物;证据充分时用确定性检查,语义维度才引入结构化 LLM 判定。本次发布共含 105 道任务,覆盖受控商业服务和本地工作空间修复,评测了 13 个前沿模型,采用统一公开通过规则。结果显示:工作流自动化远未被解决——第一名仅通过 66.7% 任务,没有任何模型达到 70%。失败按任务族群和执行面有明显结构:HR、管理和多系统业务流是持续的瓶颈;本地工作空间修复相对容易但仍未饱和。榜单名次本身信息不足——通过率相近的模型在总体完成度上可能差异显著,区分度集中在中间难度带。Claw-Eval-Live 表明:工作流 agent 评估必须"双重落地"——既接新鲜需求,又可复现。

核心内容解读

解决了什么问题:当下几乎所有 agent benchmark 都存在"冷冻问题"——SWE-bench、AgentBench、GAIA、WebArena 在发布那一刻就成了历史快照,模型通过持续训练即可"刷榜";与此同时,真实用户需求每周都在变化,冷冻的基准根本无法捕捉这种演化。另一方面,benchmark 一旦"活"起来(不断改题)就失去了模型间可比性。Claw-Eval-Live 把这对矛盾拆开:让"需求信号"活、让"评测快照"冻

核心方法——两层架构 + 执行证据为主的评分:

组件做法相对前人的关键区别
可刷新信号层从公共工作流需求信号(本次用 ClawHub Top-500 技能)持续拉取新需求作为基准的候选源保证基准始终贴近"当前真实工作负载",解决冷冻问题
可复现快照层每次发布时把候选固化为带固定 fixture、服务、workspace 和评分器的时间戳任务集保证同一个 release 在多模型、多时间点之间可比较
执行证据为主同时记录执行轨迹、审计日志、服务状态、运行后工作区产物;证据充分处使用 deterministic checks,仅在语义维度使用 structured LLM judging比"仅 LLM-as-Judge"更鲁棒;直接反制 Judge Sensitivity(2604.24074)警示过的 judge 漂移
任务族群结构化失败分析区分 HR / 管理 / 多系统业务流 / 本地工作区修复;对比通过率相近模型的总完成度差异让 benchmark 不仅输出分数,还输出"能力拓扑图"

关键数据:在当前 2026-04 release 的 105 道任务上,最强模型通过率仅 66.7%,没有任何模型突破 70% 门槛。HR、管理和多系统业务流的通过率显著低于本地工作空间修复类任务。这构成了对"agent 已经能干完整工作流"叙事的一次冷静打击。

与现有工作的关键区别:同一天发布的 What Makes a Good Terminal-Agent Benchmark Task(2604.28093)从任务设计原则角度批判 benchmark 的 reward hackability(披露 >15% 的任务可被 reward hack);BenchGuard(2604.24955)从审计角度解决"谁守护 benchmark"问题;Claw-Eval-Live 补上了第三块拼图——"benchmark 怎么活起来"。三者叠加,2026 春季的 benchmark 方法论革命基本形成闭环。

本文引用的关键文献(附链接)
Jimenez et al. (2024) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?(冷冻 benchmark 代表)
https://arxiv.org/abs/2310.06770
Liu et al. (2024) — AgentBench: Evaluating LLMs as Agents(Agent 评测基础)
https://arxiv.org/abs/2308.03688
Mialon et al. (2023) — GAIA: A Benchmark for General AI Assistants(General Agent 评测)
https://arxiv.org/abs/2311.12983
Zhou et al. (2024) — WebArena: A Realistic Web Environment for Building Autonomous Agents(真实 web 环境代表)
https://arxiv.org/abs/2307.13854
White et al. (2024) — LiveCodeBench: Holistic and Contamination-Free Evaluation of LLMs for Code(Live benchmark 的代码对照)
https://arxiv.org/abs/2403.07974
Zhang (2026) — How Sensitive Are Safety Benchmarks to Judge Configuration Choices?(LLM-as-Judge 脆弱性,归档 #2 已读)
https://arxiv.org/abs/2604.24074
Bercovich (2026) — What Makes a Good Terminal-Agent Benchmark Task(同日发布,方法论姊妹篇)
https://arxiv.org/abs/2604.28093
核心数据亮点
对你三个研究方向的启发
Harness Engineering

Claw-Eval-Live 的"可复现快照层"本质上是一种 benchmark 端的 harness:固定 fixture / 固定服务 / 固定评分器。它呼应了今天 SemaClaw 的思路——harness 是差异化的主战场。对 Harness Engineering 研究而言,需要把"benchmark harness"作为独立一个维度加入研究地图:评测基础设施本身也是 harness,且它的设计直接决定模型能力评估的可信度

Agent Skills Safety

Claw-Eval-Live 记录的 4 类证据(执行轨迹、审计日志、服务状态、工作区产物)几乎是 Agent Safety 梦寐以求的评估信号集——之前的 safety benchmark 往往只看最终输出文本。把 Claw-Eval-Live 的 fixture 框架移植到 Agent Safety 场景,完全可以构建"执行级 safety benchmark":不光看 agent 说了什么,更看 agent 真的做了什么。这与今天 agent-safety #1 OS-BLIND 的诉求完美契合。

Safety Benchmark

Claw-Eval-Live 给 benchmark 社区交出了一份清晰的清单:(1)需求必须活;(2)快照必须冻;(3)证据必须多模;(4)LLM-as-Judge 只在语义维度兜底。这几乎可以成为今后 3 年 agent benchmark 的公共规范。对于 Safety Benchmark 而言,这直接提出了一个重要研究问题——safety benchmark 也必须 live 化:攻击/防御生态每天都在演化,冷冻的 JailbreakBench、HarmBench 正在迅速失效。谁能做出第一个 Claw-Eval-Live 版本的 safety benchmark,谁就定义下一代 safety 评测。

相关延伸阅读
资源链接