← 总导航 / Agent Skills Safety / 2026-05-05 #1
2026 年 5 月 5 日 · Agent Skills Safety · BOA Framework · 长尾不安全轨迹的搜索式度量

BOA:把"Agent 安全度"从采样翻成搜索——第一次能在固定 GPU 预算下穷尽长尾不安全轨迹

Toward a Principled Framework for Agent Safety Measurement
综合 94 分 相关度 9.9 来源质量 9.2 近期影响力 9.0 新颖性 9.6 开源复现 9.0
今日 Agent Safety 方向候选评分对比(共 5 篇候选)
标题(简)方向细分来源综合分
Toward a Principled Framework for Agent Safety Measurement (BOA)今日选定 搜索式安全度量(不再靠采样) arXiv 2026-05-02 (Lin/Suri/Oprea/Tan) 94
Architectural Obsolescence of Unhardened Agentic-AI Runtimes Agent 网关运行时硬化 arXiv 2026-05-03 (Metere) 90
Alignment Contracts for Agentic Security Systems 形式化"对齐合同" arXiv 2026-04-30 (David/Guarnieri/Gervais) 91
When Embedding-Based Defenses Fail: Multi-Agent Systems 多 Agent 嵌入防御失败案例 arXiv 2026-05-01 (Zhang/Zheng/Chen) 88
Model Spec Midtraining: Improving Alignment Generalization 对齐训练泛化(54%→7% 误对齐) arXiv 2026-05-03 (Li/Price/Marks/Kutasov) 90
论文基本信息
Toward a Principled Framework for Agent Safety Measurement
面向 Agent 安全度量的原则性框架(BOA)
Shuyi Lin, Anshuman Suri, Alina Oprea, Cheng Tan
Northeastern University 安全与系统组(Oprea 长期方向)
arXiv 预印本 v1
2026-05-02
cs.CR / cs.AI
BOA:likelihood-budget 受限轨迹搜索(in-round + cross-tree)
Batched decoding/judging · prefix caching · chunked tree expansion
一句话核心贡献
把 Agent Safety 度量从"几次采样均值"改成"likelihood 预算受限的搜索",可在同一刻度上对比模型 / 防御 / 攻击。
摘要(中文翻译,忠实原文)

LLM Agent 输出的是动作而不仅是文本,而动作一旦做出往往无法撤销。然而当下的 Agent 安全评估多用贪心或寥寥几次采样,给出一个"安全/不安全"二值率——这对"低概率却非可忽略"的长尾轨迹完全失明。

作者主张:Agent 安全应当用搜索来度量,而非采样。论文给出 BOA 框架——给定一份部署配置(模型、解码器、prompt、环境、判官、likelihood 预算),BOA 在预算内的轨迹空间里搜索,并报告"在该配置下 Agent 保持安全的概率"作为安全分数。BOA 既在单轮 LLM 解码内部搜,也跨越Agent–环境交互树搜;并通过批处理解码/判官、prefix caching、分块树展开等工程手段把搜索做得切实可行。在主流 Agent-safety workload 上,BOA 能发现贪心和采样都漏掉的不安全轨迹;同时还可在同一刻度上为模型、防御、攻击三方排序,GPU 成本可控。

核心内容解读(背景·方法·差异)

解决了什么问题:过去一周 Agent Safety 主线集中处理"真实部署里的安全"——Owner-Harm 关注 Agent 伤害部署者本人,OS-BLIND 揭示 CUA 在良性指令下的盲区,EPO-Safe 用 1-bit 危险信号让 Agent 自定规约,Human-Guided Harm Recovery 把"出错后怎么救"补上,Symbolic Guardrails 在 80 个 benchmark 上证明符号守卫足以保住 74% 安全策略。但这些工作都把"安全分"当作一个可信的标量来用——而 BOA 这篇文章直接质疑了这一前提:今天大家口中的"安全率"到底测得准不准?

核心洞察:采样式评测只能看到分布的中间地带;但 Agent 出问题往往出在长尾——一个 0.5% 概率的危险动作,在百万次部署中就是 5,000 次。把这种长尾用 4 次采样去估,平均会得到 0% 不安全率,但实际损失巨大。

BOA 关键概念具体做法解决了什么
Likelihood Budget(似然预算)把搜索空间限制在"配置下出现概率 ≥ ε"的轨迹避开"理论上存在但极不可能"的鬼故事;让度量可控
双层搜索(a) 单轮 LLM 解码内的 token 搜索;(b) Agent–环境交互树的多轮搜索同时覆盖"模型一次输出选错"和"多步累积走偏"
Safety Score = P(safe)枚举到的不安全轨迹按 likelihood 加权求和把"是否安全"换成"安全的概率"——可比、可加、可拆
批处理 + prefix caching + 分块展开典型工程优化让"看起来不可承受"的搜索变得可承受使 BOA 在常规 GPU 集群上可跑——这是它能成为标准的关键

与现有工作的核心差异:

实证发现的重要性:BOA 在 agent-safety workloads 上"发现了贪心和采样都漏掉的不安全轨迹"——也就是说,今天市面上一些被报告为"99% 安全"的 Agent,BOA 仍能找到 likelihood 不可忽略的危险路径。这对监管、合规、保险定价的影响显而易见。

本文对齐 / 借鉴的关键工作(附链接)
Andriushchenko et al. (2024) — AgentDojo(动态 prompt-injection benchmark)
arxiv.org/abs/2406.13352
Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework
arxiv.org/abs/2402.04249
Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents
arxiv.org/abs/2308.03688
Chao et al. (2023) — PAIR: Jailbreaking Black Box LLMs in 20 Queries(搜索式攻击思想前身)
arxiv.org/abs/2310.08419
Hong et al. (2026) — Symbolic Guardrails for Domain-Specific Agents(与 BOA 互补)
arxiv.org/abs/2604.15579
Zheng, Morgan et al. (2026) — CarryOnBench(多轮 Safety×Utility benchmark)
arxiv.org/abs/2604.27093
核心数据亮点 / 关键论点
对你三个研究方向的启发
Harness Engineering

BOA 给 harness 增加了一个迄今被忽视的维度:"评测函数本身的统计完备性"。今天 harness 工程的成熟度大多停留在"能跑起来 + 能复现",但 BOA 提示我们:采样式评测函数从一开始就是 biased estimator。建议把 BOA 的 likelihood-budget 思想引入 VeRO / AgentPulse——把每个被监测的 Agent 的安全分从"评分"升级为"P(safe) 区间",让 harness 输出从点估计变成置信区间,工程价值极大。

Agent Skills Safety

对正在做 Agent Safety 研究的人,BOA 是一个迟早要采用的工具:(a) 评估自家防御方案 (Symbolic Guardrails / EPO-Safe / Owner-Harm SSDG) 时,请同时报告 BOA 给出的 P(safe) 提升量,避免被"采样巧合"误导;(b) 设计技能时如果某项技能的 likelihood-budget 内 P(unsafe) ≥ 5%,就必须提前在 manifest 里声明高风险并接入运行时守卫;(c) BOA 把"安全"做成可审计的概率,对监管报告和保险评估极有用——这本身就是一条产品化路径。

Safety Benchmark

BOA 实质是给 Safety Benchmark 提供了"正确的统计基底"。后续 benchmark 工作(如下日 Benchmark 报告里我们要选的 AcademiClaw 等)若要保留权威性,应在评分体系中至少给出"采样估计"和"BOA 估计"的双数字;当二者偏离>5pp 时,应触发重审。这能直接降低 Judge Sensitivity 揭示的"评判口径偏移"对结果的破坏。

相关延伸阅读
资源链接