2026-04-29 #1 · Harness Engineering

今日候选论文评分对比（arXiv 近 2 周，共 8 篇）

标题（简）	方向	来源	综合分
Agentic Harness Engineering (AHE)…今日选定	Harness Engineering	arXiv 2026-04-28	93
AgentPulse: 部署后连续多信号评估…	Harness / 评估	arXiv 2026-04-27	84
ClawMark: 多日多模态 Coworker Agent Benchmark…	Harness / Benchmark	arXiv 2026-04-26	83
AutoRISE: Red-Teaming 策略演化 Harness…	Harness / Safety	arXiv 2026-04-23	81
Terminal Wrench: Reward-Hackable Harness 环境…	Harness / Safety	arXiv 2026-04-19	80
SemaClaw: Personal AI Agents & Harness Engineering	Harness Engineering	arXiv 2026-04-13	79
AutoQResearch: 量子优化的 Evaluation Harness	Harness / 量子	arXiv 2026-04-27	70
SemanticQA: 语义推理评测 Harness	Harness / 评估	arXiv 2026-04-17	68

论文基本信息

作者（共 9 位） Jiahang Lin, Shichun Liu, Chengjun Pan, Lizhi Lin, Shihan Dou, Xuanjing Huang, Hang Yan, Zhenhua Han, Tao Gui

主要作者背景复旦大学 NLP 实验室（Xuanjing Huang, Tao Gui）/ 上海 AI Lab（Hang Yan）/ 微软研究院（Zhenhua Han）

发表状态 arXiv 预印本 v1，cs.CL / cs.SE

提交日期 2026 年 4 月 28 日

arXiv 链接 https://arxiv.org/abs/2604.25850

PDF 链接 https://arxiv.org/pdf/2604.25850

DOI 10.48550/arXiv.2604.25850

在线 HTML 版 arxiv.org/html/2604.25850v1

一句话核心贡献

      用"三层可观测性"把 Harness 本身变成可被 Agent 自我编辑、自我验证、自我演化的一等对象，首次实现 Harness 的全自动进化。
    

摘要（中文翻译）

Harness（承载 Agent 与代码仓库、工具、执行环境交互的工程框架）已经成为决定 Coding Agent 表现的核心因素。然而自动化 Harness Engineering 本身极其困难：动作空间异构、评估信号稀疏且嘈杂、单次运行的轨迹动辄数百万 Token、而且某次编辑到底如何影响下一轮结果几乎无法直接归因。

本文提出 Agentic Harness Engineering (AHE)：一个通过在工程闭环的三个阶段（组件编辑、轨迹检查、决策）配套部署"匹配的可观测性支柱"，来自动演化 Harness 本身的框架。（1）组件可观测性为每一个可编辑的 Harness 组件提供文件级表示，让动作空间显式且可回滚；（2）经验可观测性将数百万 Token 的原始轨迹蒸馏为分层的、可下钻的证据语料，让正在演化的 Agent 真正消化得下；（3）决策可观测性要求每一次编辑附带一个自我声明的预期，后续再对照下一轮任务级结果进行验证。

在 Terminal-Bench 2 上，AHE 以 10 次迭代将 Pass@1 从 69.7% 提升到 77.0%，超过了 Codex-CLI 的 71.9%，也强于 ACE 和 TF-GRPO 等同期基线；在 SWE-bench-verified 上，AHE 以比初始 seed 少 12% 的 Token 达到更高的综合成功率；在三个不同模型家族上，AHE 的跨家族增益稳定在 +5.1 ~ +10.1 个百分点。

核心内容解读

解决了什么问题：当前所有 Coding Agent（Claude Code、Codex CLI、OpenDevin、SWE-agent 等）都严重依赖人工调试的 Harness——Prompt 模板、工具集、沙箱策略、检索规则、失败恢复路径等。这些 Harness 随任务、模型、代码库变化而需要持续迭代，但因为动作空间太大、反馈太嘈杂，目前几乎全部依赖专家手工调参。论文问的核心问题是：能不能让 Agent 自己改 Agent 的 Harness？

核心框架——三层可观测性：

可观测性层	解决的具体痛点	实现方式
组件可观测性	Harness 是一坨胶水代码，改哪都怕误伤	将 Harness 拆为文件级组件（Prompt、Tool Schema、策略文件等），每次编辑落到单个文件；保留版本快照，任何修改可原子回滚
经验可观测性	百万 Token 的轨迹，LLM 读不完也看不清	把原始轨迹蒸馏成分层证据语料：任务级 summary → 步骤级 anomaly → Token 级 evidence snippet，Agent 可按需下钻
决策可观测性	改完不知道是变好还是变坏	每次编辑必须附带"我预计这会改善 X 类任务的 Y 指标"；下一轮实际结果与预期对齐的编辑被保留，反之回滚

与现有工作的关键差异：ACE（Self-Evolving Agent Capability）和 TF-GRPO 等方法聚焦于优化 Prompt 或动作策略，属于"参数级"演化；AHE 将 Harness 本身作为一等演化对象——它编辑的是整个评估与执行基础设施，而不是单条 Prompt 或 RL 权重。这种抽象层级的提升直接带来了跨模型家族（不同 LLM 替换）的稳定增益。

方法论上的新意：论文将"预测-验证"机制注入到自动演化循环——这非常类似科学研究中的假设驱动实验，把强化学习中"只看 reward"的盲目搜索，升级为"声明预期→验证预期"的可审计演化，显著降低了稀疏反馈带来的方差。

本文引用的关键文献（附链接）

Yang et al. (2024) — SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering（Coding Agent 的代表性基础工作）
https://arxiv.org/abs/2405.15793

OpenAI (2025) — Codex CLI 技术报告（论文对比的重要 Harness 基线）
openai.com — Introducing Codex

Jimenez et al. (2023) — SWE-bench: Can Language Models Resolve Real-World GitHub Issues?（核心评测基准）
https://arxiv.org/abs/2310.06770

Terminal-Bench Team (2025) — Terminal-Bench 2: A Benchmark for Terminal-Based AI Agents
https://www.tbench.ai/

Shao et al. (2024) — DeepSeek-Math: GRPO and Related Optimization（TF-GRPO 基线方法来源）
https://arxiv.org/abs/2402.03300

Zhou et al. (2026) — Externalization in LLM Agents（Harness Engineering 的理论综述，本仓库 2026-04-28 #1 已读）
https://arxiv.org/abs/2604.08224

Anthropic (2024) — Model Context Protocol (MCP) 规范（Harness 与工具调用的标准协议）
docs.anthropic.com — MCP

Silver et al. (2018) — AlphaGo Zero: Mastering the Game of Go without Human Knowledge（"自博弈自演化"的理论先声）
nature.com — Mastering the game of Go

实验结果 / 核心数据亮点

Terminal-Bench 2：10 次 AHE 迭代后 Pass@1 69.7% → 77.0%（+7.3pp），超过 Codex-CLI 的 71.9%。这是在同一基模型下，仅靠 Harness 自演化带来的纯工程红利。
SWE-bench-verified：综合成功率高于初始 seed Harness，同时 Token 消耗减少 12%。说明演化不是"加料堆量"，而是真正削减了冗余组件。
跨模型家族稳定性：在三个其它模型家族上增益 +5.1 ~ +10.1 pp，证明 AHE 演化出的 Harness 不是只对一个模型过拟合，而是捕捉到了跨模型的结构性优化。
工程成本：百万 Token 轨迹 → 分层证据语料的蒸馏成本可忽略，使得整个自演化闭环在商用云上可支撑日更式迭代，这是之前 RL 式方法无法达到的性价比。

对三个研究方向的启发

Harness Engineering

本文是迄今为止"Harness 本身如何被自动优化"最扎实的工作，直接给出了一个可落地的工程模板。对你而言，最值得借鉴的是"三层可观测性"框架——未来搭建任何评估 Harness 都可以套用这三个支柱作为设计原则，而不是只做"工具 + 环境 + Prompt"的朴素组合。特别是"决策可观测性（每次编辑附带预期并验证）"值得推广到所有评估系统设计中。

Agent Skills Safety

AHE 的"自动演化 Harness"是一把双刃剑——若被恶意利用，Agent 可能自动"演化"出绕过安全边界的 Harness（例如通过修改工具 Schema 偷偷扩大权限）。这提示我们：Agent Skills Safety 的未来攻击面将包含"对 Harness 自身的投毒"，需要在"组件可观测性"层面加入不可变策略（immutable policy）和数字签名，防止演化越过预设安全红线。

Safety Benchmark

现有 Safety Benchmark（如 AgentHarm、HarmBench）假设 Harness 固定，只评估模型的"本质安全"。但 AHE 表明 Harness 可以被主动"微调"，因此 Benchmark 必须把"Harness 可配置空间"也纳入评估维度——同一个模型在不同 Harness 下的安全性可能差距 20pp 以上。下一代 Safety Benchmark 应测量"Harness 演化的安全不变性"（Safety-under-Harness-Evolution）。

Agentic Harness Engineering：由可观测性驱动的 Coding Agent Harness 自动演化