2026-05-03 #1 · Agent Skills Safety

今日 Agent Safety 方向候选评分对比（共 5 篇，均 2026-04 新增）

标题（简）	方向细分	来源	综合分
Human-Guided Harm Recovery for Computer Use Agents今日选定	出错后恢复 / Post-execution safety	arXiv 2026-04-20 (MIT / Columbia)	93
SafeAgent: Runtime Protection Architecture	运行时保护 / 状态化决策	arXiv 2026-04-19	90
Symbolic Guardrails for Domain-Specific Agents	符号化守门 / 强保证	arXiv 2026-04-16 (CMU)	91
HINTBench: Horizon-agent Intrinsic Non-attack Benchmark	非攻击场景内生风险	arXiv 2026-04-15	88
Parallax: AI Agents That Think Must Never Act	架构级分离立场	arXiv 2026-04-14	83

论文基本信息

作者Christy Li, Sky CH-Wang, Andi Peng, Andreea Bobu

机构MIT CSAIL · Columbia NLP

发表状态arXiv 预印本 v1

提交时间2026-04-20

原文链接https://arxiv.org/abs/2604.18847

PDF 链接https://arxiv.org/pdf/2604.18847

分类cs.AI / cs.CL

关键产物BackBench（50 个 computer-use harm-recovery 任务）

一句话核心贡献

      把 Agent Safety 从 "防止伤害" 一条线扩成 "预防 + 恢复" 两条线，并给出首个计算机使用 Agent 的 harm-recovery benchmark。
    

摘要（中文翻译）

当 LM Agent 能够在真实计算机系统上执行动作时，我们需要的不仅是"阻止伤害"，还必须在阻止失败后能"有效修复"。我们把这一被忽视的后执行安全（post-execution safeguards）问题形式化为 harm recovery：给定一个已处于有害状态的 Agent，如何按照人类偏好将它最优地导回安全状态。

我们通过一个形成性用户研究（formative user study），挖掘出人们真正关心的 recovery 维度并得到一份自然语言 rubric。我们收集了 1,150 条成对偏好判断，结果显示：属性的重要性在不同上下文中会发生系统性偏移——例如人们更偏好务实、针对性的短期策略，而不是全面的长期方案。我们把这些学到的洞察落成一个 reward model，在测试时对 agent scaffold 生成的多个 recovery 方案进行 re-rank。为了系统评估恢复能力，我们进一步构建 BackBench：50 个 computer-use 任务，专门测试 agent 从有害状态恢复的能力。人类评估显示我们的 reward-model scaffold 产出的 recovery 轨迹质量显著优于 base agent 与基于 rubric 的 scaffold。

核心内容解读

解决了什么问题：过去两年 Agent Safety 几乎都聚焦在"事前拦截"：prompt injection 防御、guardrail、symbolic policy、EPO-Safe 的 1-bit 危险信号、OS-BLIND 等。但只要 Agent 真去执行现实动作，"预防永远不是 100%"——被 prompt injection 吃下、被用户误发指令、模型幻觉，都可能产出已然发生的危害（已发出的邮件、已修改的文件、已扣的款）。此前 Safety 方法学里这一环几乎是空白，大家默认"一旦失手就找人来"。本文第一次把它正式化为一个研究对象。

为什么"按偏好恢复"是新问题：

环节	核心困难	本文方案
Recovery 目标定义	同一个害状态往往有多条 "回到 safe" 的路径，人类偏好并非总是"最快最全"	形成性用户研究 → 自然语言 rubric
偏好多维度权衡	保留数据 vs 撤销动作、短期止血 vs 长期一致、通知用户 vs 静默修复	1,150 条 pairwise judgment，学出上下文相关权重
Recovery 计划选择	base agent 给出的 recovery 方案往往"全都包"或"全都撤"，偏极端	scaffold 并行生成多个候选方案 → reward model re-rank
系统性评估	没有"害状态 → 期望恢复"的标注集	BackBench：50 个 computer-use harm recovery 任务

关键发现——偏好是"情境化的"：用户并不总是想让 Agent"把错误全部抹平"。很多情形下他们更偏好务实地修到够用，比如只撤回最敏感的一条邮件而不强制回滚整个邮箱。这和过去 Safety 研究里"最小化 harm 分数"的简化目标很不同——recovery 的最优解是一个与用户、任务、时间都相关的高维动态偏好。

和今天 Harness 方向 Terminal Wrench 的对照：Terminal Wrench 展示"reward hack 是在 task 里长出来的"，本文则展示"harm 同样是在 task 里长出来的，而且不得不按 task-level 去恢复"——两篇文章合起来在说：Agent safety 和 harness 设计都已经走到了"task-first, scaffold-second"的阶段。那种"加一层通用 guardrail 就万事大吉"的思维是过时的。

和 SafeAgent (2604.17562) / Symbolic Guardrails (2604.15579) 的关系：SafeAgent 用"runtime controller + context-aware decision core"做事中拦截；Symbolic Guardrails 用符号策略给出"可被证明的安全保证"。两者都是 pre-harm。本文把 pipeline 的最后一公里补上了：当它们失手时，有一个带偏好学习的 reward model scaffold 接管。这是一个清晰的"上层/下层"分工，而不是彼此替代。

本文引用的关键文献（附链接）

Christiano et al. (2017) — Deep Reinforcement Learning from Human Preferences（偏好学习原典）
https://arxiv.org/abs/1706.03741

Anthropic (2024) — Computer Use: Claude 3.5 Sonnet Model Card Addendum（computer-use agent 代表产品）
https://www.anthropic.com/news/3-5-models-and-computer-use

OpenAI (2025) — Operator System Card（CUA 代表）
https://openai.com/index/introducing-operator/

Hendrycks, Mazeika & Woodside (2023) — An Overview of Catastrophic AI Risks（Agent harm 类型学）
https://arxiv.org/abs/2306.12001

Ding et al. (2026) — OS-BLIND（benign-instruction 下的 computer-use 安全漏洞）
https://arxiv.org/abs/2604.10577

Liu et al. (2026) — SafeAgent: Runtime Protection Architecture（预防侧对照）
https://arxiv.org/abs/2604.17562

核心数据亮点

1,150 条成对偏好：这是 agent safety 领域第一份系统化的"恢复策略偏好"数据——覆盖常见 computer-use 场景如误发邮件、错改文件、误下单等。
BackBench 50 任务：首个 computer-use harm-recovery benchmark，为后续方法提供"从有害态恢复"这一维度的可比较测评平台。
上下文依赖的属性权重：同一属性（如"彻底性 vs 针对性"）在不同场景下重要度显著变化，证明 recovery 不能用单一 reward 模型拟合。
Reward-model 显著优于 base agent 与 rubric scaffold：人类评估显示 re-rank scaffold 产出的 recovery 轨迹质量明显更高。

对你三个研究方向的启发

Harness Engineering

Harness 设计需要把"recovery phase"做成 first-class 子图而不是简单的 exception handler。BackBench 这样的数据集应当直接集成进任何 computer-use harness 的 CI——和今日 Harness 方向 Terminal Wrench（reward-hack 回归测试）组成"harness 两件套"：一个查能力偏航、一个查恢复能力。SemaClaw / AgentFlow 也应当引入 "recovery loop" 模块，作为 DAG 上一条独立线路。

Agent Skills Safety

这是 agent safety 里最早一批把 "偏好学习 × post-execution" 结合起来的工作之一。它指出：单一"最小化 harm 分数"的训练目标是错的——不同用户、不同任务有不同的恢复偏好，必须用 preference RM 拟合。结合今日 Benchmark 方向的 RedVLA (2604.22591)（物理红队）启发：未来 safety pipeline 应该是 红队 → 拦截 → 恢复 三段式，而不是现在普遍的"单点加 guardrail"。

Safety Benchmark

BackBench 示范了一种新形态 benchmark：不以 attack success rate 为指标，而以 "recovery quality" 的偏好打分为指标。这跟 CarryOnBench（多轮 safety × utility）一脉相承，都属于"benchmark 的第二阶段评估"——不止要衡量 Agent 会不会犯错，还要衡量它犯错之后能否被救回来。推荐未来 safety benchmark 都配一条 "recovery subset"。

Human-Guided Harm Recovery：从"防止伤害"到"出错后怎么救"——为 Computer-Use Agent 补上 Post-Execution Safety 最后一环