| 标题(简) | 方向 | 来源 | 综合分 |
|---|---|---|---|
| Externalization in LLM Agents…今日选定 | Harness Engineering | arXiv 2026-04-09 | 94 |
| SemaClaw: Harness Engineering… | Harness Engineering | arXiv 2026-04-13 | 88 |
| From Skill Text to Skill Structure… | Agent Skills | arXiv 2026-04-27 | 85 |
| MedSkillAudit… | Agent Skills Safety | arXiv 2026-04-22 | 82 |
| How Sensitive Are Safety Benchmarks… | Safety Benchmark | arXiv 2026-04-27 | 80 |
| Cross-Session Threats in AI Agents… | Agent Safety Benchmark | arXiv 2026-04-22 | 79 |
| AISafetyBenchExplorer… | Safety Benchmark | arXiv 2026-04-14 | 75 |
| SkillLearnBench… | Agent Skills Benchmark | arXiv 2026-04-22 | 74 |
大型语言模型(LLM)Agent 的构建方式正在发生根本性转变——越来越少依赖改变模型权重,而是越来越多地依赖重新组织运行时环境。过去需要模型在内部完成的能力,现在被"外部化"到记忆存储、可复用技能、交互协议以及让这些模块在实践中可靠运行的"Harness(工程框架)"中。
本文通过"外部化"视角对这一转变进行综述。借鉴认知工件(cognitive artifacts)的理念,论文指出 Agent 基础设施的重要性不仅在于添加辅助组件,更在于它将困难的认知负担转化为模型能更可靠地处理的形式:记忆将"回忆"转化为"识别",技能将"生成"转化为"组合",协议将"临时协调"转化为"结构化契约",而 Harness Engineering 则作为统一层,协调这三者在治理约束下可靠执行。
论文追踪了从"权重时代" → "上下文时代" → "Harness 时代"的历史演进,并深入分析了参数化能力与外部化能力之间的核心权衡。
解决了什么问题:当前 LLM Agent 领域缺乏一个统一的理论框架来理解为何"做更大的模型"以外的工程努力同样(甚至更)重要。大量系统(MemGPT、ReAct、LangGraph、AutoGen 等)各自提出自己的方案,但缺少贯穿全局的第一性原理。
核心框架——四层外部化体系:
| 层级 | 外部化内容 | 认知转化 | 代表系统 |
|---|---|---|---|
| 记忆(Memory) | 跨时间的状态 | 回忆 → 识别 | MemGPT, GraphRAG, Mem0 |
| 技能(Skills) | 程序性专业知识 | 生成 → 组合 | OpenAI 函数调用, Anthropic Tools |
| 协议(Protocols) | 交互结构 | 临时协调 → 结构化契约 | MCP, A2A, Agent 协议 |
| Harness | 统一执行治理 | 混乱集成 → 可审计系统 | LangGraph, CrewAI, SemaClaw |
三个时代的演进:论文明确划分了 LLM Agent 发展的三个阶段——2022~2023 年的"权重时代"(靠大模型本身)、2023~2024 年的"上下文时代"(靠 Prompt Engineering 和 RAG)、2024~2026 年的"Harness 时代"(靠系统工程基础设施)。
与现有综述的关键区别:不是简单罗列技术,而是用 Norman 的"认知工件理论"作为第一性原理,统一解释了为什么这四种外部化都能降低模型认知负担。六类模块间交互(记忆→技能的经验蒸馏、技能→协议的能力调用等)形成了一个完整的交互地图,这是之前综述所没有的。
cambridge.org — Things That Make Us Smart
https://arxiv.org/abs/2005.11401
https://arxiv.org/abs/2310.08560
https://arxiv.org/abs/2201.11903
https://arxiv.org/abs/2210.03629
https://arxiv.org/abs/2308.08155
https://arxiv.org/abs/2404.16130
docs.anthropic.com — MCP Documentation
https://arxiv.org/abs/2309.02427
https://arxiv.org/abs/2302.04761
- 54 页系统性综述,覆盖 Agent 外部化领域的全部主流技术路线,是目前最完整的 Harness Engineering 理论框架文章,涉及现有系统超过 40 个。
- 六类模块交互:记忆⇌技能⇌协议之间形成 6 种双向交互(如"经验蒸馏"将记忆中的轨迹转化为可复用技能,"结果同化"将协议执行结果写回记忆),这是此前综述缺失的系统性描述。
- 参数化 vs 外部化的权衡分析:明确给出了何时应将能力"烧入"模型权重、何时应外部化为基础设施的判断标准(更新频率、可审计性、多 Agent 复用需求),对实际系统设计有直接指导意义。
- 预测未来方向:提出编排逻辑本身将成为下一个被外部化的层次("self-evolving harness"),以及多模态外部化和体现式外部化(类比大脑-小脑分工)是下一阶段核心课题。
本文提供了 Harness Engineering 最系统的理论定义:不是"工具调用的封装",而是"在记忆、技能、协议三层之上提供治理、可审计性和可靠执行的统一基础设施"。你做 Harness Engineering 研究时,这套词汇体系(Agent Loop、沙箱隔离、人工监督门、可观测性、权限策略)是必须掌握的基础语言。
论文提出技能外部化带来三个安全维度:规格安全(skill spec 是否被篡改)、发现安全(技能注册表是否可信)和执行绑定安全(skill 调用时的权限边界)。这直接为"Agent Skills Safety"研究提供了攻击面分类框架,可作为你构建安全评估方法的切入点。
论文明确指出当前缺乏对"外部化质量"本身的评估基准——现有 benchmark 评估的是 Agent 的任务完成率,而非其 Harness 的可审计性、记忆的一致性、技能的安全边界等基础设施属性。这是一个空白的 benchmark 设计方向,值得开坑。
-
SemaClaw — Zhu et al. (2026) — A Step Towards General-Purpose Personal AI Agents through Harness Engineering(本文的工程实现对应物,提出了 PermissionBridge 行为安全系统)
https://arxiv.org/abs/2604.11548 -
MedSkillAudit — Hou et al. (2026) — A Domain-Specific Audit Framework for Medical Research Agent Skills(Agent Skills Safety 的领域落地案例)
https://arxiv.org/abs/2604.20441 -
How Sensitive Are Safety Benchmarks to Judge Configuration — Zhang (2026) — 对 HarmBench 评测配置敏感性的系统分析,直接警示 Benchmark 设计中的评判者偏差问题
https://arxiv.org/abs/2604.24074