| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| AgentPulse: Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment今日选定 | Deployment-aware harness(连续评估) | arXiv 2026-04-27 (Gao, Wang, Yu) | 93 |
| ClawMark: Living-World Benchmark for Multi-Turn Multi-Day Coworker Agents | 多日多模态 coworker 评测 harness | arXiv 2026-04-26(25+ 作者) | 90 |
| AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming LLMs | Red-team harness(策略演化) | arXiv 2026-04-23 (Gautam et al.) | 88 |
| AutoQResearch: LLM-Guided Closed-Loop Policy Search (固定 harness 版本) | 把 harness 当筛选器使用 | arXiv 2026-04-27 (Sharma, Lau) | 82 |
静态 benchmark 衡量的是 AI Agent 在某一时刻"能做什么",但回答不了它是否被采用、是否被维护、用户体验如何。我们提出 AgentPulse——一个连续评估框架,针对 50 个 Agent、10 个工作类目、4 个维度(Benchmark Performance / Adoption Signals / Community Sentiment / Ecosystem Health)打分;这 4 个维度由 18 个跨平台实时信号(GitHub、包管理、IDE Marketplace、社交媒体、榜单)聚合而成。
三项分析支撑该框架:(1) 4 个维度信息基本互补(n=50;最高相关 ρ=0.61,其余 |ρ|≤0.37);(2) 控制了循环依赖的子组合("Benchmark+Sentiment",不含任何 GitHub 派生信号)能预测它未直接聚合的外部采用代理:GitHub stars (ρ_s=0.52)、Stack Overflow 提问量 (ρ_s=0.49),以及 VS Code 安装数 (ρ_s=0.44);(3) 在 11 个有 SWE-bench 公开成绩的子集中,AgentPulse 综合排名与 benchmark-only 排名几乎不相关(ρ_s=0.25;11 个里有 9 个排名变化≥2 名)——这正是"高能力 Agent 不一定被采用"的量化证据。AgentPulse 是一种方法论而非 ground-truth 排名。框架本身、原始信号、打分输出与评测 harness 全部以 CC BY 4.0 公开。
解决了什么问题:过去一周 Harness 主线持续把"自动化"做深——从 AHE 的"观测驱动 harness 自演化",到 Last Harness 的两层 Meta-Evolution,到 Terminal Wrench 的"harness 自身可被骗吗",再到 VeRO 的"评测优化器本身"。这条主线全部围绕"跑分阶段"做精;但 Agent 一旦真的进入生产,跑分就再也无法回答管理者关心的问题:用户真在用吗?还在维护吗?社区怎么评?AgentPulse 第一次把"部署后"作为 harness 的评估对象正式提上议程。
四个维度(每个由若干实时信号组成):
| 维度 | 构成信号 | 这维度回答什么 |
|---|---|---|
| Benchmark Performance | SWE-bench / Terminal-Bench / 各家 leaderboard 公布分 | "能力上限"——传统 harness 已经做得最好的部分 |
| Adoption Signals | GitHub stars / fork / npm-pypi 下载 / VS Code 安装数 | "有人在用吗"——揭示真实分发量级 |
| Community Sentiment | X/Twitter、Reddit、HN 提及与情绪 / Stack Overflow 提问量 | "社区怎么评 / 在解决什么坑"——半结构化用户反馈 |
| Ecosystem Health | commit 频率 / issue 关闭速度 / 插件生态 / 文档刷新 | "还在被维护吗"——长期生命力指标 |
三项实证回应"这套维度凭什么有效":
- 互补性测试(n=50):除"Adoption × Ecosystem"高相关 (ρ=0.61) 之外,其余两两 |ρ|≤0.37——说明 4 维度并非冗余,而是各自捕获独立信息。
- 非循环预测(n=35):用"Benchmark+Sentiment"(去掉了 GitHub 派生信号)这个子组合,能反向预测未参与计算的 GitHub Stars / SO 提问量——证明这套打分确实跟踪到了"真实采用"。
- SWE-bench 子集对照(n=11):AgentPulse 综合分 vs 仅 SWE-bench 分排名几乎无关 (ρ_s=0.25);论文坦承在这个小样本里"高能力闭源 Agent"反倒采用度低——这恰恰是为什么不该只用 SWE-bench 来比 Agent 的有力佐证。
与现有 harness 的核心差异:
- 对比 lm-eval-harness / OpenAI evals / SWE-bench:它们是"同一时刻、同一题面、同一打分函数"。AgentPulse 是"持续时间窗 × 多源信号 × 跨平台",更像是给 Agent 装了一组生命体征监护仪。
- 对比 VeRO(昨日 Harness 报告):VeRO 评的是"优化器把 Agent 改好了没",AgentPulse 评的是"Agent 部署到真实世界以后变成了什么样"。两者构成"Edit-time × Run-time"的双视角 harness。
- 对比 ClawMark(候选 #2):ClawMark 仍是 sandboxed sandbox 任务(13 个职业场景里的 100 个任务),离线评估为主;AgentPulse 把"线上信号"也合法化为评估对象。
github.com/EleutherAI/lm-evaluation-harness
arxiv.org/abs/2310.06770
arxiv.org/abs/2308.03688
arxiv.org/abs/2604.25850
arxiv.org/abs/2602.22480
chaoss.community/metrics/
- 四维度互补:n=50,最高相关 ρ=0.61(Adoption-Ecosystem),其余两两相关 |ρ|≤0.37。"4 个维度"不是任意拍的,是经统计验证后留下来的。
- "无 GitHub 信号也能预测 GitHub stars" (n=35):Benchmark+Sentiment 子组合预测 GitHub stars (ρ_s=0.52, p<0.01)、Stack Overflow 提问量 (ρ_s=0.49, p<0.01)、VS Code 安装数 (ρ_s=0.44, p<0.05)——说明跑分+情绪足够前瞻"采用度"。
- SWE-bench 排名 vs AgentPulse 综合排名 ρ_s 仅 0.25 (n=11):11 个里有 9 个排名变化≥2;高能力闭源 Agent 与高采用度负相关。这是迄今为止"benchmark ≠ 用户选择"最直接的实证。
- AgentPulse 把"评测"做成 SaaS 思路:所有信号、打分、harness 全部 CC BY 4.0 开源,便于第三方做 fork、做行业子榜。
AgentPulse 把 Harness 研究从"试验场内的微观闭环"扩展到"部署后宏观信号闭环"。建议把它和昨日 VeRO(Edit-time)+ Terminal Wrench(信度)+ Last Harness(Meta-Evolution)合成"Harness 工程四象限":(a) 编辑期能力评测(VeRO)、(b) 信度可被骗诊断(Terminal Wrench)、(c) 自动化优化(Last Harness)、(d) 部署期持续监测(AgentPulse)——这四类共同构成下一代 harness 的最小完备套件。
AgentPulse 间接给 Agent Safety 提供了"事后召回"的可能:当某个 Agent 的 Sentiment 维度突然下跌(用户大量发帖抱怨"Agent 删了我的文件"等 Owner-Harm 案例),可以触发 Owner-Harm 框架的事后审计或 Human-Guided Harm Recovery 的回滚。换句话说,AgentPulse 自带"community-level 安全告警"——这是 sandboxed safety bench 永远抓不到的。
"Benchmark+Sentiment 能预测 GitHub stars"这个事实揭示:Sentiment 维度本身就是一个可量化、低成本、近实时的 benchmark 信号源。Safety Benchmark 设计者可以把"Sentiment-derived safety incident rate"做成 secondary metric——例如统计 Agent 相关推文里"data-loss / privacy-leak / unauthorized-action"事件密度,弥补 Judge Sensitivity 关心的"评判者口径"对真实危害的覆盖盲区。
- VeRO: Evaluation Harness for Agents to Optimize Agents — Ursekar et al. (2026) · 编辑期 harness
arxiv.org/abs/2602.22480 - ClawMark: Living-World Benchmark for Multi-Day Coworker Agents — Meng, Du et al. (2026) · 多日多模态长任务
arxiv.org/abs/2604.23781 - AutoRISE: Strategy Evolution for Red-Teaming LLMs — Gautam et al. (2026) · Red-team harness
arxiv.org/abs/2604.22871 - SWE-bench — Jimenez et al. (2023) · 真实 GitHub issue 评估
arxiv.org/abs/2310.06770