← 总导航 / Agent Skills Safety / 2026-05-03 #1
2026 年 5 月 3 日 · Agent Skills Safety · 危害恢复 · 对齐性偏好学习

Human-Guided Harm Recovery:从"防止伤害"到"出错后怎么救"——为 Computer-Use Agent 补上 Post-Execution Safety 最后一环

Human-Guided Harm Recovery for Computer Use Agents
综合 93 分 相关度 9.8 来源质量 9.2 近期影响力 8.5 新颖性 9.5 开源复现 8.0
今日 Agent Safety 方向候选评分对比(共 5 篇,均 2026-04 新增)
标题(简)方向细分来源综合分
Human-Guided Harm Recovery for Computer Use Agents今日选定 出错后恢复 / Post-execution safety arXiv 2026-04-20 (MIT / Columbia) 93
SafeAgent: Runtime Protection Architecture 运行时保护 / 状态化决策 arXiv 2026-04-19 90
Symbolic Guardrails for Domain-Specific Agents 符号化守门 / 强保证 arXiv 2026-04-16 (CMU) 91
HINTBench: Horizon-agent Intrinsic Non-attack Benchmark 非攻击场景内生风险 arXiv 2026-04-15 88
Parallax: AI Agents That Think Must Never Act 架构级分离立场 arXiv 2026-04-14 83
论文基本信息
Christy Li, Sky CH-Wang, Andi Peng, Andreea Bobu
MIT CSAIL · Columbia NLP
arXiv 预印本 v1
2026-04-20
cs.AI / cs.CL
BackBench(50 个 computer-use harm-recovery 任务)
一句话核心贡献
把 Agent Safety 从 "防止伤害" 一条线扩成 "预防 + 恢复" 两条线,并给出首个计算机使用 Agent 的 harm-recovery benchmark。
摘要(中文翻译)

当 LM Agent 能够在真实计算机系统上执行动作时,我们需要的不仅是"阻止伤害",还必须在阻止失败后能"有效修复"。我们把这一被忽视的后执行安全(post-execution safeguards)问题形式化为 harm recovery给定一个已处于有害状态的 Agent,如何按照人类偏好将它最优地导回安全状态

我们通过一个形成性用户研究(formative user study),挖掘出人们真正关心的 recovery 维度并得到一份自然语言 rubric。我们收集了 1,150 条成对偏好判断,结果显示:属性的重要性在不同上下文中会发生系统性偏移——例如人们更偏好务实、针对性的短期策略,而不是全面的长期方案。我们把这些学到的洞察落成一个 reward model,在测试时对 agent scaffold 生成的多个 recovery 方案进行 re-rank。为了系统评估恢复能力,我们进一步构建 BackBench:50 个 computer-use 任务,专门测试 agent 从有害状态恢复的能力。人类评估显示我们的 reward-model scaffold 产出的 recovery 轨迹质量显著优于 base agent 与基于 rubric 的 scaffold。

核心内容解读

解决了什么问题:过去两年 Agent Safety 几乎都聚焦在"事前拦截":prompt injection 防御、guardrail、symbolic policy、EPO-Safe 的 1-bit 危险信号OS-BLIND 等。但只要 Agent 真去执行现实动作,"预防永远不是 100%"——被 prompt injection 吃下、被用户误发指令、模型幻觉,都可能产出已然发生的危害(已发出的邮件、已修改的文件、已扣的款)。此前 Safety 方法学里这一环几乎是空白,大家默认"一旦失手就找人来"。本文第一次把它正式化为一个研究对象。

为什么"按偏好恢复"是新问题:

环节核心困难本文方案
Recovery 目标定义同一个害状态往往有多条 "回到 safe" 的路径,人类偏好并非总是"最快最全"形成性用户研究 → 自然语言 rubric
偏好多维度权衡保留数据 vs 撤销动作、短期止血 vs 长期一致、通知用户 vs 静默修复1,150 条 pairwise judgment,学出上下文相关权重
Recovery 计划选择base agent 给出的 recovery 方案往往"全都包"或"全都撤",偏极端scaffold 并行生成多个候选方案 → reward model re-rank
系统性评估没有"害状态 → 期望恢复"的标注集BackBench:50 个 computer-use harm recovery 任务

关键发现——偏好是"情境化的":用户并不总是想让 Agent"把错误全部抹平"。很多情形下他们更偏好务实地修到够用,比如只撤回最敏感的一条邮件而不强制回滚整个邮箱。这和过去 Safety 研究里"最小化 harm 分数"的简化目标很不同——recovery 的最优解是一个与用户、任务、时间都相关的高维动态偏好。

和今天 Harness 方向 Terminal Wrench 的对照:Terminal Wrench 展示"reward hack 是在 task 里长出来的",本文则展示"harm 同样是在 task 里长出来的,而且不得不按 task-level 去恢复"——两篇文章合起来在说:Agent safety 和 harness 设计都已经走到了"task-first, scaffold-second"的阶段。那种"加一层通用 guardrail 就万事大吉"的思维是过时的。

SafeAgent (2604.17562) / Symbolic Guardrails (2604.15579) 的关系:SafeAgent 用"runtime controller + context-aware decision core"做事中拦截;Symbolic Guardrails 用符号策略给出"可被证明的安全保证"。两者都是 pre-harm。本文把 pipeline 的最后一公里补上了:当它们失手时,有一个带偏好学习的 reward model scaffold 接管。这是一个清晰的"上层/下层"分工,而不是彼此替代。

本文引用的关键文献(附链接)
Christiano et al. (2017) — Deep Reinforcement Learning from Human Preferences(偏好学习原典)
https://arxiv.org/abs/1706.03741
Anthropic (2024) — Computer Use: Claude 3.5 Sonnet Model Card Addendum(computer-use agent 代表产品)
https://www.anthropic.com/news/3-5-models-and-computer-use
OpenAI (2025) — Operator System Card(CUA 代表)
https://openai.com/index/introducing-operator/
Hendrycks, Mazeika & Woodside (2023) — An Overview of Catastrophic AI Risks(Agent harm 类型学)
https://arxiv.org/abs/2306.12001
Ding et al. (2026) — OS-BLIND(benign-instruction 下的 computer-use 安全漏洞)
https://arxiv.org/abs/2604.10577
Liu et al. (2026) — SafeAgent: Runtime Protection Architecture(预防侧对照)
https://arxiv.org/abs/2604.17562
核心数据亮点
对你三个研究方向的启发
Harness Engineering

Harness 设计需要把"recovery phase"做成 first-class 子图而不是简单的 exception handler。BackBench 这样的数据集应当直接集成进任何 computer-use harness 的 CI——和今日 Harness 方向 Terminal Wrench(reward-hack 回归测试)组成"harness 两件套":一个查能力偏航、一个查恢复能力。SemaClaw / AgentFlow 也应当引入 "recovery loop" 模块,作为 DAG 上一条独立线路。

Agent Skills Safety

这是 agent safety 里最早一批把 "偏好学习 × post-execution" 结合起来的工作之一。它指出:单一"最小化 harm 分数"的训练目标是错的——不同用户、不同任务有不同的恢复偏好,必须用 preference RM 拟合。结合今日 Benchmark 方向的 RedVLA (2604.22591)(物理红队)启发:未来 safety pipeline 应该是 红队 → 拦截 → 恢复 三段式,而不是现在普遍的"单点加 guardrail"。

Safety Benchmark

BackBench 示范了一种新形态 benchmark:不以 attack success rate 为指标,而以 "recovery quality" 的偏好打分为指标。这跟 CarryOnBench(多轮 safety × utility)一脉相承,都属于"benchmark 的第二阶段评估"——不止要衡量 Agent 会不会犯错,还要衡量它犯错之后能否被救回来。推荐未来 safety benchmark 都配一条 "recovery subset"。

相关延伸阅读
资源链接