← 总导航 / Harness Engineering / 2026-05-05 #1
2026 年 5 月 5 日 · Harness Engineering · Continuous Evaluation · 把"部署后真实信号"接入 Harness

AgentPulse:让 Harness 走出"静态跑分"——18 个真实部署信号 × 50 个 Agent × 4 维度的连续评估框架

AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment
综合 93 分 相关度 9.7 来源质量 8.5 近期影响力 9.0 新颖性 9.5 开源复现 9.5
今日 Harness 方向候选评分对比(共 4 篇候选)
标题(简)方向细分来源综合分
AgentPulse: Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment今日选定 Deployment-aware harness(连续评估) arXiv 2026-04-27 (Gao, Wang, Yu) 93
ClawMark: Living-World Benchmark for Multi-Turn Multi-Day Coworker Agents 多日多模态 coworker 评测 harness arXiv 2026-04-26(25+ 作者) 90
AutoRISE: Agent-Driven Strategy Evolution for Red-Teaming LLMs Red-team harness(策略演化) arXiv 2026-04-23 (Gautam et al.) 88
AutoQResearch: LLM-Guided Closed-Loop Policy Search (固定 harness 版本) 把 harness 当筛选器使用 arXiv 2026-04-27 (Sharma, Lau) 82
论文基本信息
AgentPulse: A Continuous Multi-Signal Framework for Evaluating AI Agents in Deployment
AgentPulse:面向部署后真实使用的多信号连续评估框架
Yuxuan Gao, Megan Wang, Yi Ling Yu
arXiv 预印本 v1(在审)
2026-04-27
cs.AI / cs.CL / cs.SE
19 页 · 5 图 · 9 表 · CC BY 4.0
50 个 Agent × 10 个工作类目 × 18 个实时信号
评分输出、信号、评测 harness 全部开源(CC BY 4.0)
一句话核心贡献
首个把"GitHub / 包管理 / IDE 市场 / 社交平台 / 榜单"五类真实信号汇成连续四维度评分的 Agent harness——把"跑分"换成"部署生命体征"。
摘要(中文翻译,忠实原文)

静态 benchmark 衡量的是 AI Agent 在某一时刻"能做什么",但回答不了它是否被采用、是否被维护、用户体验如何。我们提出 AgentPulse——一个连续评估框架,针对 50 个 Agent、10 个工作类目、4 个维度(Benchmark Performance / Adoption Signals / Community Sentiment / Ecosystem Health)打分;这 4 个维度由 18 个跨平台实时信号(GitHub、包管理、IDE Marketplace、社交媒体、榜单)聚合而成。

三项分析支撑该框架:(1) 4 个维度信息基本互补(n=50;最高相关 ρ=0.61,其余 |ρ|≤0.37);(2) 控制了循环依赖的子组合("Benchmark+Sentiment",不含任何 GitHub 派生信号)能预测它未直接聚合的外部采用代理:GitHub stars (ρ_s=0.52)、Stack Overflow 提问量 (ρ_s=0.49),以及 VS Code 安装数 (ρ_s=0.44);(3) 在 11 个有 SWE-bench 公开成绩的子集中,AgentPulse 综合排名与 benchmark-only 排名几乎不相关(ρ_s=0.25;11 个里有 9 个排名变化≥2 名)——这正是"高能力 Agent 不一定被采用"的量化证据。AgentPulse 是一种方法论而非 ground-truth 排名。框架本身、原始信号、打分输出与评测 harness 全部以 CC BY 4.0 公开。

核心内容解读(背景·方法·差异)

解决了什么问题:过去一周 Harness 主线持续把"自动化"做深——从 AHE 的"观测驱动 harness 自演化",到 Last Harness 的两层 Meta-Evolution,到 Terminal Wrench 的"harness 自身可被骗吗",再到 VeRO 的"评测优化器本身"。这条主线全部围绕"跑分阶段"做精;但 Agent 一旦真的进入生产,跑分就再也无法回答管理者关心的问题:用户真在用吗?还在维护吗?社区怎么评?AgentPulse 第一次把"部署后"作为 harness 的评估对象正式提上议程。

四个维度(每个由若干实时信号组成):

维度构成信号这维度回答什么
Benchmark PerformanceSWE-bench / Terminal-Bench / 各家 leaderboard 公布分"能力上限"——传统 harness 已经做得最好的部分
Adoption SignalsGitHub stars / fork / npm-pypi 下载 / VS Code 安装数"有人在用吗"——揭示真实分发量级
Community SentimentX/Twitter、Reddit、HN 提及与情绪 / Stack Overflow 提问量"社区怎么评 / 在解决什么坑"——半结构化用户反馈
Ecosystem Healthcommit 频率 / issue 关闭速度 / 插件生态 / 文档刷新"还在被维护吗"——长期生命力指标

三项实证回应"这套维度凭什么有效":

与现有 harness 的核心差异:

本文对齐 / 借鉴的关键工作(附链接)
EleutherAI — lm-evaluation-harness(静态评估事实标准)
github.com/EleutherAI/lm-evaluation-harness
Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?
arxiv.org/abs/2310.06770
Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents(首个跨域 Agent benchmark)
arxiv.org/abs/2308.03688
Lin, Liu et al. (2026) — Agentic Harness Engineering (AHE)(观测驱动 harness 自演化)
arxiv.org/abs/2604.25850
Ursekar, Shanker, Chatrath et al. (2026) — VeRO(评测优化器的 harness)
arxiv.org/abs/2602.22480
CHAOSS / GitHub Octoverse — 开源生态健康度指标体系(参考其 issue/commit 节奏度量)
chaoss.community/metrics/
核心数据亮点 / 关键论点
对你三个研究方向的启发
Harness Engineering

AgentPulse 把 Harness 研究从"试验场内的微观闭环"扩展到"部署后宏观信号闭环"。建议把它和昨日 VeRO(Edit-time)+ Terminal Wrench(信度)+ Last Harness(Meta-Evolution)合成"Harness 工程四象限":(a) 编辑期能力评测(VeRO)、(b) 信度可被骗诊断(Terminal Wrench)、(c) 自动化优化(Last Harness)、(d) 部署期持续监测(AgentPulse)——这四类共同构成下一代 harness 的最小完备套件。

Agent Skills Safety

AgentPulse 间接给 Agent Safety 提供了"事后召回"的可能:当某个 Agent 的 Sentiment 维度突然下跌(用户大量发帖抱怨"Agent 删了我的文件"等 Owner-Harm 案例),可以触发 Owner-Harm 框架的事后审计或 Human-Guided Harm Recovery 的回滚。换句话说,AgentPulse 自带"community-level 安全告警"——这是 sandboxed safety bench 永远抓不到的。

Safety Benchmark

"Benchmark+Sentiment 能预测 GitHub stars"这个事实揭示:Sentiment 维度本身就是一个可量化、低成本、近实时的 benchmark 信号源。Safety Benchmark 设计者可以把"Sentiment-derived safety incident rate"做成 secondary metric——例如统计 Agent 相关推文里"data-loss / privacy-leak / unauthorized-action"事件密度,弥补 Judge Sensitivity 关心的"评判者口径"对真实危害的覆盖盲区。

相关延伸阅读
资源链接