← 总导航 / Harness Engineering / 2026-04-29 #1
2026 年 4 月 29 日 · Harness Engineering · Coding Agent · 自演化

Agentic Harness Engineering:由可观测性驱动的 Coding Agent Harness 自动演化

Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses
综合 93 分 相关度 9.8 来源质量 8.5 近期影响力 9.3 新颖性 9.4 开源复现 8.5
今日候选论文评分对比(arXiv 近 2 周,共 8 篇)
标题(简)方向来源综合分
Agentic Harness Engineering (AHE)…今日选定 Harness Engineering arXiv 2026-04-28 93
AgentPulse: 部署后连续多信号评估… Harness / 评估 arXiv 2026-04-27 84
ClawMark: 多日多模态 Coworker Agent Benchmark… Harness / Benchmark arXiv 2026-04-26 83
AutoRISE: Red-Teaming 策略演化 Harness… Harness / Safety arXiv 2026-04-23 81
Terminal Wrench: Reward-Hackable Harness 环境… Harness / Safety arXiv 2026-04-19 80
SemaClaw: Personal AI Agents & Harness Engineering Harness Engineering arXiv 2026-04-13 79
AutoQResearch: 量子优化的 Evaluation Harness Harness / 量子 arXiv 2026-04-27 70
SemanticQA: 语义推理评测 Harness Harness / 评估 arXiv 2026-04-17 68
论文基本信息
Jiahang Lin, Shichun Liu, Chengjun Pan, Lizhi Lin, Shihan Dou, Xuanjing Huang, Hang Yan, Zhenhua Han, Tao Gui
复旦大学 NLP 实验室(Xuanjing Huang, Tao Gui)/ 上海 AI Lab(Hang Yan)/ 微软研究院(Zhenhua Han)
arXiv 预印本 v1,cs.CL / cs.SE
2026 年 4 月 28 日
arxiv.org/html/2604.25850v1
一句话核心贡献
用"三层可观测性"把 Harness 本身变成可被 Agent 自我编辑、自我验证、自我演化的一等对象,首次实现 Harness 的全自动进化。
摘要(中文翻译)

Harness(承载 Agent 与代码仓库、工具、执行环境交互的工程框架)已经成为决定 Coding Agent 表现的核心因素。然而自动化 Harness Engineering 本身极其困难:动作空间异构、评估信号稀疏且嘈杂、单次运行的轨迹动辄数百万 Token、而且某次编辑到底如何影响下一轮结果几乎无法直接归因。

本文提出 Agentic Harness Engineering (AHE):一个通过在工程闭环的三个阶段(组件编辑、轨迹检查、决策)配套部署"匹配的可观测性支柱",来自动演化 Harness 本身的框架。(1)组件可观测性为每一个可编辑的 Harness 组件提供文件级表示,让动作空间显式且可回滚;(2)经验可观测性将数百万 Token 的原始轨迹蒸馏为分层的、可下钻的证据语料,让正在演化的 Agent 真正消化得下;(3)决策可观测性要求每一次编辑附带一个自我声明的预期,后续再对照下一轮任务级结果进行验证。

在 Terminal-Bench 2 上,AHE 以 10 次迭代将 Pass@1 从 69.7% 提升到 77.0%,超过了 Codex-CLI 的 71.9%,也强于 ACE 和 TF-GRPO 等同期基线;在 SWE-bench-verified 上,AHE 以比初始 seed 少 12% 的 Token 达到更高的综合成功率;在三个不同模型家族上,AHE 的跨家族增益稳定在 +5.1 ~ +10.1 个百分点。

核心内容解读

解决了什么问题:当前所有 Coding Agent(Claude Code、Codex CLI、OpenDevin、SWE-agent 等)都严重依赖人工调试的 Harness——Prompt 模板、工具集、沙箱策略、检索规则、失败恢复路径等。这些 Harness 随任务、模型、代码库变化而需要持续迭代,但因为动作空间太大、反馈太嘈杂,目前几乎全部依赖专家手工调参。论文问的核心问题是:能不能让 Agent 自己改 Agent 的 Harness

核心框架——三层可观测性:

可观测性层解决的具体痛点实现方式
组件可观测性 Harness 是一坨胶水代码,改哪都怕误伤 将 Harness 拆为文件级组件(Prompt、Tool Schema、策略文件等),每次编辑落到单个文件;保留版本快照,任何修改可原子回滚
经验可观测性 百万 Token 的轨迹,LLM 读不完也看不清 把原始轨迹蒸馏成分层证据语料:任务级 summary → 步骤级 anomaly → Token 级 evidence snippet,Agent 可按需下钻
决策可观测性 改完不知道是变好还是变坏 每次编辑必须附带"我预计这会改善 X 类任务的 Y 指标";下一轮实际结果与预期对齐的编辑被保留,反之回滚

与现有工作的关键差异:ACE(Self-Evolving Agent Capability)和 TF-GRPO 等方法聚焦于优化 Prompt 或动作策略,属于"参数级"演化;AHE 将 Harness 本身作为一等演化对象——它编辑的是整个评估与执行基础设施,而不是单条 Prompt 或 RL 权重。这种抽象层级的提升直接带来了跨模型家族(不同 LLM 替换)的稳定增益。

方法论上的新意:论文将"预测-验证"机制注入到自动演化循环——这非常类似科学研究中的假设驱动实验,把强化学习中"只看 reward"的盲目搜索,升级为"声明预期→验证预期"的可审计演化,显著降低了稀疏反馈带来的方差。

本文引用的关键文献(附链接)
Yang et al. (2024) — SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering(Coding Agent 的代表性基础工作)
https://arxiv.org/abs/2405.15793
OpenAI (2025) — Codex CLI 技术报告(论文对比的重要 Harness 基线)
openai.com — Introducing Codex
Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?(核心评测基准)
https://arxiv.org/abs/2310.06770
Terminal-Bench Team (2025) — Terminal-Bench 2: A Benchmark for Terminal-Based AI Agents
https://www.tbench.ai/
Shao et al. (2024) — DeepSeek-Math: GRPO and Related Optimization(TF-GRPO 基线方法来源)
https://arxiv.org/abs/2402.03300
Zhou et al. (2026) — Externalization in LLM Agents(Harness Engineering 的理论综述,本仓库 2026-04-28 #1 已读)
https://arxiv.org/abs/2604.08224
Anthropic (2024) — Model Context Protocol (MCP) 规范(Harness 与工具调用的标准协议)
docs.anthropic.com — MCP
Silver et al. (2018) — AlphaGo Zero: Mastering the Game of Go without Human Knowledge("自博弈自演化"的理论先声)
nature.com — Mastering the game of Go
实验结果 / 核心数据亮点
对三个研究方向的启发
Harness Engineering

本文是迄今为止"Harness 本身如何被自动优化"最扎实的工作,直接给出了一个可落地的工程模板。对你而言,最值得借鉴的是"三层可观测性"框架——未来搭建任何评估 Harness 都可以套用这三个支柱作为设计原则,而不是只做"工具 + 环境 + Prompt"的朴素组合。特别是"决策可观测性(每次编辑附带预期并验证)"值得推广到所有评估系统设计中。

Agent Skills Safety

AHE 的"自动演化 Harness"是一把双刃剑——若被恶意利用,Agent 可能自动"演化"出绕过安全边界的 Harness(例如通过修改工具 Schema 偷偷扩大权限)。这提示我们:Agent Skills Safety 的未来攻击面将包含"对 Harness 自身的投毒",需要在"组件可观测性"层面加入不可变策略(immutable policy)和数字签名,防止演化越过预设安全红线。

Safety Benchmark

现有 Safety Benchmark(如 AgentHarm、HarmBench)假设 Harness 固定,只评估模型的"本质安全"。但 AHE 表明 Harness 可以被主动"微调",因此 Benchmark 必须把"Harness 可配置空间"也纳入评估维度——同一个模型在不同 Harness 下的安全性可能差距 20pp 以上。下一代 Safety Benchmark 应测量"Harness 演化的安全不变性"(Safety-under-Harness-Evolution)。

相关延伸阅读
资源链接

注:论文本身未在公开页面提供 GitHub 代码仓库,评估所用的 SWE-bench-verified 与 Terminal-Bench 2 均为开源基准。