← 总导航 / Harness Engineering / 2026-05-01 #1
2026 年 5 月 1 日 · Harness Engineering · 个人 AI Agent · 开源框架

SemaClaw:用 Harness Engineering 迈向通用个人 AI Agent 的开源实现

SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering
综合 93 分 相关度 10.0 来源质量 8.5 近期影响力 9.0 新颖性 9.2 开源复现 9.5
今日 Harness 方向候选评分对比(共 5 篇)
标题(简)方向细分来源综合分
SemaClaw: General-Purpose Personal AI Agents through Harness Engineering今日选定 Personal Agent Harness arXiv 2026-04-13 93
Externalization in LLM Agents: Unified Review of Memory/Skills/Protocols/Harness Harness 综述 arXiv 2026-04-09 90
VeRO: Evaluation Harness for Agents to Optimize Agents Meta-Optimization Harness arXiv 2026-02-25 86
Graph-Based Evaluation Harness for Domain-Specific LLM Evaluation Graph Harness arXiv 2025-08-28 (v2) 82
vla-eval: Unified Harness for VLA Models VLA Harness(已覆盖) arXiv 2026-03-14 80
论文基本信息
Ningyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
cs.AI — Personal AI Agent × Harness Engineering
arXiv 预印本,v1
2026 年 4 月 13 日
一句话核心贡献
把"个人 AI Agent"拆成 DAG 两阶段编排 + PermissionBridge 行为安全 + 三层上下文管理 + 自建 Wiki 技能四件套,交出 Harness Engineering 第一个完整开源参考实现。
摘要(中文翻译)

2026 年初 OpenClaw 的兴起标志着一个关键时刻:数百万用户开始把个人 AI Agent 部署到日常生活中,将"安排旅行"到"多步研究"等任务都交给它完成。这种规模化采用说明两条平行的发展曲线已经到达拐点。

第一条曲线是 AI 工程范式的迁移:从 Prompt Engineering 和 Context Engineering,演进到 Harness Engineering——设计完整的基础设施,把"不受约束的 Agent"转化为"可控、可审计、生产级可靠"的系统。当模型能力趋于收敛,Harness 层正在成为架构差异化的主战场

第二条曲线是人-Agent 交互的演进:从一次性离散任务迁移到持续的、具备上下文感知的协作关系,这要求 harness 基础设施必须开放、可信、可扩展。

我们提出 SemaClaw,一个面向这两条曲线的开源多 Agent 应用框架,通过 Harness Engineering 迈向通用个人 AI Agent。主要贡献包括:(1)基于 DAG 的两阶段混合 Agent 团队编排方法;(2)PermissionBridge 行为安全系统;(3)三层上下文管理架构;(4)用于自动构建个人知识库的 Agentic Wiki 技能

核心内容解读

解决了什么问题:2026 年个人 AI Agent 进入规模化部署,但真正卡住工程落地的不是模型推理能力,而是"如何把一个不受约束的模型,包装成一个可以每天用、不翻车、能审计、能延展"的运行时。以往做法(Auto-GPT 式单 Agent、Prompt 链、人工 while-loop)都有明显断裂:没有持久上下文、安全靠硬编码黑白名单、技能无法跨会话复用。SemaClaw 把这一层工程实践系统化,明确提出"Harness Engineering 就是把 agent 变产品的主场"。

核心方法——四件套共同构成一个 harness 参考实现:

组件做法相对前人的关键区别
DAG 两阶段 Agent 编排先做"规划 DAG"(Planning Phase)产出可检查的任务图;再做"执行 DAG"(Execution Phase)由多 Agent 协作,期间可回到规划阶段比 CrewAI/AutoGen 的"顺序或全连通图"更显式:计划与执行解耦,允许计划被用户修订再执行
PermissionBridge 行为安全所有外部副作用(文件、网络、消息)都经 Permission Bridge:先声明 intent、再按用户策略授权、最后记录审计日志把"工具调用安全"从模型自省升级为运行时强约束,Agent 想用什么工具必须先开票
三层上下文管理Session / Project / Personal 三层上下文分别落库;查询时自上而下合并,注入前过滤解决了"同一 agent 跨项目记忆串扰 / 跨会话失忆"两个对立的老问题
Agentic Wiki 技能内置可自演化的知识库构建技能:agent 自己从对话 / 文件产出 wiki,回写到 Personal 层上下文把"个人知识库"从被动存储升级为 agent 主动治理的资产

与现有工作的关键区别:同期综述 Externalization in LLM Agents(2604.08224)把 memory / skills / protocols / harness 作为四种外部化形式做了学术综述;SemaClaw 则是它的工程对照版——给出一个已落地、已开源、且面向终端用户的 harness 参考实现。这让它在"学术概念 → 产品栈"之间架起了非常难得的一座桥。

为什么这篇值得读:如果 AgentFlow(2604.20801)教会我们"harness 可以被自动合成"、Agentic Harness Engineering(2604.25850)教会我们"harness 可以被自动演化",那么 SemaClaw 教会我们"harness 应该长什么样,才能真的跑在一个普通用户的电脑上"。三者合起来,2026-04 月 Harness Engineering 方向已经有了完整的合成—演化—产品化三段式地图。

本文引用的关键文献(附链接)
Zhou et al. (2026) — Externalization in LLM Agents: A Unified Review of Memory, Skills, Protocols and Harness Engineering(SemaClaw 的学术对照面)
https://arxiv.org/abs/2604.08224
Wu et al. (2023) — AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation(多 Agent 编排对照)
https://arxiv.org/abs/2308.08155
Xi et al. (2023) — The Rise and Potential of Large Language Model Based Agents: A Survey(Agent 基础综述)
https://arxiv.org/abs/2309.07864
Richards (2023) — Auto-GPT: An Autonomous GPT-4 Experiment(历史参照,单 Agent 时代)
https://github.com/Significant-Gravitas/AutoGPT
Shinn et al. (2023) — Reflexion: Language Agents with Verbal Reinforcement Learning(规划阶段反思机制源头)
https://arxiv.org/abs/2303.11366
Yao et al. (2022) — ReAct: Synergizing Reasoning and Acting in Language Models(工具调用范式)
https://arxiv.org/abs/2210.03629
Lin et al. (2026) — Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses(演化式 harness 对照)
https://arxiv.org/abs/2604.25850
核心数据亮点
对你三个研究方向的启发
Harness Engineering

SemaClaw 正面给出了 Harness Engineering 的产品化模板:规划-执行两段 DAG、权限桥、三层上下文、可自演化 Wiki。后续 Harness 研究不必再从零起步,可以直接把它当"reference harness"做 ablation:拆掉 PermissionBridge 看安全代价、拆掉三层上下文看长期记忆代价、拆掉 Wiki 技能看知识复用代价。这让 Harness 研究第一次有了可以被实证比较的基线。

Agent Skills Safety

PermissionBridge 是一个值得被 Agent Safety 社区借鉴的运行时安全层设计:Agent 想调用任何外部工具,都必须先声明 intent 并等待授权。这比"让对齐过的模型自己判断"鲁棒得多——尤其是在今天的 OS-BLIND(2604.10577)场景中,即便用户指令良性,agent 在执行期也会绕过 safety alignment;PermissionBridge 正是针对这种"执行期逃逸"的对策。

Safety Benchmark

一个完整的 harness(SemaClaw 这样的)意味着benchmark 的测量对象必须从"模型"下沉到"模型 × harness"组合。如果一个 safety benchmark 不指定 harness 层(比如是否启用 PermissionBridge、三层上下文裁剪策略如何),其分数就无法在不同 agent 产品之间比较。这和之前读过的 Judge Sensitivity(2604.24074)是同一件事:benchmark 必须公开其 harness 端的"暗参数"。

相关延伸阅读
资源链接