2026-05-05 #1 · Harness Engineering

今日 Harness 方向候选评分对比（共 4 篇候选）

标题（简）	方向细分	来源	综合分
AgentPulse: Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment今日选定	Deployment-aware harness（连续评估）	arXiv 2026-04-27 (Gao, Wang, Yu)	93
ClawMark: Living-World Benchmark for Multi-Turn Multi-Day Coworker Agents	多日多模态 coworker 评测 harness	arXiv 2026-04-26（25+ 作者）	90
AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming LLMs	Red-team harness（策略演化）	arXiv 2026-04-23 (Gautam et al.)	88
AutoQResearch: LLM-Guided Closed-Loop Policy Search (固定 harness 版本)	把 harness 当筛选器使用	arXiv 2026-04-27 (Sharma, Lau)	82

论文基本信息

英文标题AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment

中文标题AgentPulse：面向部署后真实使用的多信号连续评估框架

作者Yuxuan Gao, Megan Wang, Yi Ling Yu

发表状态arXiv 预印本 v1（在审）

提交时间2026-04-27

arXiv 链接https://arxiv.org/abs/2604.24038

PDF 链接https://arxiv.org/pdf/2604.24038

DOI10.48550/arXiv.2604.24038

分类cs.AI / cs.CL / cs.SE

篇幅 / 许可19 页 · 5 图 · 9 表 · CC BY 4.0

规模50 个 Agent × 10 个工作类目 × 18 个实时信号

开源评分输出、信号、评测 harness 全部开源（CC BY 4.0）

一句话核心贡献

      首个把"GitHub / 包管理 / IDE 市场 / 社交平台 / 榜单"五类真实信号汇成连续四维度评分的 Agent harness——把"跑分"换成"部署生命体征"。
    

摘要（中文翻译，忠实原文）

静态 benchmark 衡量的是 AI Agent 在某一时刻"能做什么"，但回答不了它是否被采用、是否被维护、用户体验如何。我们提出 AgentPulse——一个连续评估框架，针对 50 个 Agent、10 个工作类目、4 个维度（Benchmark Performance / Adoption Signals / Community Sentiment / Ecosystem Health）打分；这 4 个维度由 18 个跨平台实时信号（GitHub、包管理、IDE Marketplace、社交媒体、榜单）聚合而成。

三项分析支撑该框架：(1) 4 个维度信息基本互补（n=50；最高相关 ρ=0.61，其余 |ρ|≤0.37）；(2) 控制了循环依赖的子组合（"Benchmark+Sentiment"，不含任何 GitHub 派生信号）能预测它未直接聚合的外部采用代理：GitHub stars (ρ_s=0.52)、Stack Overflow 提问量 (ρ_s=0.49)，以及 VS Code 安装数 (ρ_s=0.44)；(3) 在 11 个有 SWE-bench 公开成绩的子集中，AgentPulse 综合排名与 benchmark-only 排名几乎不相关（ρ_s=0.25；11 个里有 9 个排名变化≥2 名）——这正是"高能力 Agent 不一定被采用"的量化证据。AgentPulse 是一种方法论而非 ground-truth 排名。框架本身、原始信号、打分输出与评测 harness 全部以 CC BY 4.0 公开。

核心内容解读（背景·方法·差异）

解决了什么问题：过去一周 Harness 主线持续把"自动化"做深——从 AHE 的"观测驱动 harness 自演化"，到 Last Harness 的两层 Meta-Evolution，到 Terminal Wrench 的"harness 自身可被骗吗"，再到 VeRO 的"评测优化器本身"。这条主线全部围绕"跑分阶段"做精；但 Agent 一旦真的进入生产，跑分就再也无法回答管理者关心的问题：用户真在用吗？还在维护吗？社区怎么评？AgentPulse 第一次把"部署后"作为 harness 的评估对象正式提上议程。

四个维度（每个由若干实时信号组成）：

维度	构成信号	这维度回答什么
Benchmark Performance	SWE-bench / Terminal-Bench / 各家 leaderboard 公布分	"能力上限"——传统 harness 已经做得最好的部分
Adoption Signals	GitHub stars / fork / npm-pypi 下载 / VS Code 安装数	"有人在用吗"——揭示真实分发量级
Community Sentiment	X/Twitter、Reddit、HN 提及与情绪 / Stack Overflow 提问量	"社区怎么评 / 在解决什么坑"——半结构化用户反馈
Ecosystem Health	commit 频率 / issue 关闭速度 / 插件生态 / 文档刷新	"还在被维护吗"——长期生命力指标

三项实证回应"这套维度凭什么有效"：

互补性测试（n=50）：除"Adoption × Ecosystem"高相关 (ρ=0.61) 之外，其余两两 |ρ|≤0.37——说明 4 维度并非冗余，而是各自捕获独立信息。
非循环预测（n=35）：用"Benchmark+Sentiment"（去掉了 GitHub 派生信号）这个子组合，能反向预测未参与计算的 GitHub Stars / SO 提问量——证明这套打分确实跟踪到了"真实采用"。
SWE-bench 子集对照（n=11）：AgentPulse 综合分 vs 仅 SWE-bench 分排名几乎无关 (ρ_s=0.25)；论文坦承在这个小样本里"高能力闭源 Agent"反倒采用度低——这恰恰是为什么不该只用 SWE-bench 来比 Agent 的有力佐证。

与现有 harness 的核心差异：

对比 lm-eval-harness / OpenAI evals / SWE-bench：它们是"同一时刻、同一题面、同一打分函数"。AgentPulse 是"持续时间窗 × 多源信号 × 跨平台"，更像是给 Agent 装了一组生命体征监护仪。
对比 VeRO（昨日 Harness 报告）：VeRO 评的是"优化器把 Agent 改好了没"，AgentPulse 评的是"Agent 部署到真实世界以后变成了什么样"。两者构成"Edit-time × Run-time"的双视角 harness。
对比 ClawMark（候选 #2）：ClawMark 仍是 sandboxed sandbox 任务（13 个职业场景里的 100 个任务），离线评估为主；AgentPulse 把"线上信号"也合法化为评估对象。

本文对齐 / 借鉴的关键工作（附链接）

EleutherAI — lm-evaluation-harness（静态评估事实标准）
github.com/EleutherAI/lm-evaluation-harness

Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
arxiv.org/abs/2310.06770

Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents（首个跨域 Agent benchmark）
arxiv.org/abs/2308.03688

Lin, Liu et al. (2026) — Agentic Harness Engineering (AHE)（观测驱动 harness 自演化）
arxiv.org/abs/2604.25850

Ursekar, Shanker, Chatrath et al. (2026) — VeRO（评测优化器的 harness）
arxiv.org/abs/2602.22480

CHAOSS / GitHub Octoverse — 开源生态健康度指标体系（参考其 issue/commit 节奏度量）
chaoss.community/metrics/

核心数据亮点 / 关键论点

四维度互补：n=50，最高相关 ρ=0.61（Adoption-Ecosystem），其余两两相关 |ρ|≤0.37。"4 个维度"不是任意拍的，是经统计验证后留下来的。
"无 GitHub 信号也能预测 GitHub stars" (n=35)：Benchmark+Sentiment 子组合预测 GitHub stars (ρ_s=0.52, p<0.01)、Stack Overflow 提问量 (ρ_s=0.49, p<0.01)、VS Code 安装数 (ρ_s=0.44, p<0.05)——说明跑分+情绪足够前瞻"采用度"。
SWE-bench 排名 vs AgentPulse 综合排名 ρ_s 仅 0.25 (n=11)：11 个里有 9 个排名变化≥2；高能力闭源 Agent 与高采用度负相关。这是迄今为止"benchmark ≠ 用户选择"最直接的实证。
AgentPulse 把"评测"做成 SaaS 思路：所有信号、打分、harness 全部 CC BY 4.0 开源，便于第三方做 fork、做行业子榜。

对你三个研究方向的启发

Harness Engineering

AgentPulse 把 Harness 研究从"试验场内的微观闭环"扩展到"部署后宏观信号闭环"。建议把它和昨日 VeRO（Edit-time）+ Terminal Wrench（信度）+ Last Harness（Meta-Evolution）合成"Harness 工程四象限"：(a) 编辑期能力评测（VeRO）、(b) 信度可被骗诊断（Terminal Wrench）、(c) 自动化优化（Last Harness）、(d) 部署期持续监测（AgentPulse）——这四类共同构成下一代 harness 的最小完备套件。

Agent Skills Safety

AgentPulse 间接给 Agent Safety 提供了"事后召回"的可能：当某个 Agent 的 Sentiment 维度突然下跌（用户大量发帖抱怨"Agent 删了我的文件"等 Owner-Harm 案例），可以触发 Owner-Harm 框架的事后审计或 Human-Guided Harm Recovery 的回滚。换句话说，AgentPulse 自带"community-level 安全告警"——这是 sandboxed safety bench 永远抓不到的。

Safety Benchmark

"Benchmark+Sentiment 能预测 GitHub stars"这个事实揭示：Sentiment 维度本身就是一个可量化、低成本、近实时的 benchmark 信号源。Safety Benchmark 设计者可以把"Sentiment-derived safety incident rate"做成 secondary metric——例如统计 Agent 相关推文里"data-loss / privacy-leak / unauthorized-action"事件密度，弥补 Judge Sensitivity 关心的"评判者口径"对真实危害的覆盖盲区。

AgentPulse：让 Harness 走出"静态跑分"——18 个真实部署信号 × 50 个 Agent × 4 维度的连续评估框架