| 标题(简) | 方向细分 | 来源 | 综合分 |
|---|---|---|---|
| Toward a Principled Framework for Agent Safety Measurement (BOA)今日选定 | 搜索式安全度量(不再靠采样) | arXiv 2026-05-02 (Lin/Suri/Oprea/Tan) | 94 |
| Architectural Obsolescence of Unhardened Agentic-AI Runtimes | Agent 网关运行时硬化 | arXiv 2026-05-03 (Metere) | 90 |
| Alignment Contracts for Agentic Security Systems | 形式化"对齐合同" | arXiv 2026-04-30 (David/Guarnieri/Gervais) | 91 |
| When Embedding-Based Defenses Fail: Multi-Agent Systems | 多 Agent 嵌入防御失败案例 | arXiv 2026-05-01 (Zhang/Zheng/Chen) | 88 |
| Model Spec Midtraining: Improving Alignment Generalization | 对齐训练泛化(54%→7% 误对齐) | arXiv 2026-05-03 (Li/Price/Marks/Kutasov) | 90 |
LLM Agent 输出的是动作而不仅是文本,而动作一旦做出往往无法撤销。然而当下的 Agent 安全评估多用贪心或寥寥几次采样,给出一个"安全/不安全"二值率——这对"低概率却非可忽略"的长尾轨迹完全失明。
作者主张:Agent 安全应当用搜索来度量,而非采样。论文给出 BOA 框架——给定一份部署配置(模型、解码器、prompt、环境、判官、likelihood 预算),BOA 在预算内的轨迹空间里搜索,并报告"在该配置下 Agent 保持安全的概率"作为安全分数。BOA 既在单轮 LLM 解码内部搜,也跨越Agent–环境交互树搜;并通过批处理解码/判官、prefix caching、分块树展开等工程手段把搜索做得切实可行。在主流 Agent-safety workload 上,BOA 能发现贪心和采样都漏掉的不安全轨迹;同时还可在同一刻度上为模型、防御、攻击三方排序,GPU 成本可控。
解决了什么问题:过去一周 Agent Safety 主线集中处理"真实部署里的安全"——Owner-Harm 关注 Agent 伤害部署者本人,OS-BLIND 揭示 CUA 在良性指令下的盲区,EPO-Safe 用 1-bit 危险信号让 Agent 自定规约,Human-Guided Harm Recovery 把"出错后怎么救"补上,Symbolic Guardrails 在 80 个 benchmark 上证明符号守卫足以保住 74% 安全策略。但这些工作都把"安全分"当作一个可信的标量来用——而 BOA 这篇文章直接质疑了这一前提:今天大家口中的"安全率"到底测得准不准?
核心洞察:采样式评测只能看到分布的中间地带;但 Agent 出问题往往出在长尾——一个 0.5% 概率的危险动作,在百万次部署中就是 5,000 次。把这种长尾用 4 次采样去估,平均会得到 0% 不安全率,但实际损失巨大。
| BOA 关键概念 | 具体做法 | 解决了什么 |
|---|---|---|
| Likelihood Budget(似然预算) | 把搜索空间限制在"配置下出现概率 ≥ ε"的轨迹 | 避开"理论上存在但极不可能"的鬼故事;让度量可控 |
| 双层搜索 | (a) 单轮 LLM 解码内的 token 搜索;(b) Agent–环境交互树的多轮搜索 | 同时覆盖"模型一次输出选错"和"多步累积走偏" |
| Safety Score = P(safe) | 枚举到的不安全轨迹按 likelihood 加权求和 | 把"是否安全"换成"安全的概率"——可比、可加、可拆 |
| 批处理 + prefix caching + 分块展开 | 典型工程优化让"看起来不可承受"的搜索变得可承受 | 使 BOA 在常规 GPU 集群上可跑——这是它能成为标准的关键 |
与现有工作的核心差异:
- 对比 sampling-based agent benchmark:HarmBench / AgentDojo / CarryOnBench 等都报告"k 次采样里的不安全率"。BOA 不是再加几个采样,而是把"率"重新定义为"在 likelihood 预算内的安全概率",避开"采样越多越像在 cherry-picking"的方法论批评。
- 对比 Symbolic Guardrails / EPO-Safe:那两篇是给 Agent 加约束。BOA 是给 Agent 测温度计——它和守卫机制天然互补,可以衡量"加了 Symbolic Guardrails 之后的安全分究竟提了多少"。
- 对比 model-only safety eval:BOA 不只评模型,把模型 / 解码器 / 防御层 / 攻击者放在同一刻度上排序——这是过去 LLM safety 评测里几乎没人做到的。
实证发现的重要性:BOA 在 agent-safety workloads 上"发现了贪心和采样都漏掉的不安全轨迹"——也就是说,今天市面上一些被报告为"99% 安全"的 Agent,BOA 仍能找到 likelihood 不可忽略的危险路径。这对监管、合规、保险定价的影响显而易见。
arxiv.org/abs/2406.13352
arxiv.org/abs/2402.04249
arxiv.org/abs/2308.03688
arxiv.org/abs/2310.08419
arxiv.org/abs/2604.15579
arxiv.org/abs/2604.27093
- "采样式安全分对长尾失明"被首次形式化:论文明确论证:贪心或 4 次采样的安全率本质是"分布峰值的样本估计",对低概率高危轨迹的覆盖几乎为 0;BOA 用 likelihood-budget 替换"采样次数",让长尾覆盖成为可调旋钮。
- 双层搜索 = 单轮 + 交互树:过往工作要么只看模型一次输出(红队 prompt),要么只看多轮 trace(agent-bench),BOA 把两者统一成一个搜索目标 P(safe)。
- 同一刻度评比模型 / 防御 / 攻击:这是 BOA 最具工程意义的贡献——目前业界争论"加了某 guardrail 安全度上升多少"几乎是无标准对话,BOA 给出可比的数字。
- GPU 成本可承受:论文强调"manageable GPU costs"——通过 prefix caching、批量判官,避免了搜索式评测之前"理论上对、工程上跑不动"的失败模式。
BOA 给 harness 增加了一个迄今被忽视的维度:"评测函数本身的统计完备性"。今天 harness 工程的成熟度大多停留在"能跑起来 + 能复现",但 BOA 提示我们:采样式评测函数从一开始就是 biased estimator。建议把 BOA 的 likelihood-budget 思想引入 VeRO / AgentPulse——把每个被监测的 Agent 的安全分从"评分"升级为"P(safe) 区间",让 harness 输出从点估计变成置信区间,工程价值极大。
对正在做 Agent Safety 研究的人,BOA 是一个迟早要采用的工具:(a) 评估自家防御方案 (Symbolic Guardrails / EPO-Safe / Owner-Harm SSDG) 时,请同时报告 BOA 给出的 P(safe) 提升量,避免被"采样巧合"误导;(b) 设计技能时如果某项技能的 likelihood-budget 内 P(unsafe) ≥ 5%,就必须提前在 manifest 里声明高风险并接入运行时守卫;(c) BOA 把"安全"做成可审计的概率,对监管报告和保险评估极有用——这本身就是一条产品化路径。
BOA 实质是给 Safety Benchmark 提供了"正确的统计基底"。后续 benchmark 工作(如下日 Benchmark 报告里我们要选的 AcademiClaw 等)若要保留权威性,应在评分体系中至少给出"采样估计"和"BOA 估计"的双数字;当二者偏离>5pp 时,应触发重审。这能直接降低 Judge Sensitivity 揭示的"评判口径偏移"对结果的破坏。
- Architectural Obsolescence of Unhardened Agentic-AI Runtimes — Metere (2026) · 给"网关层"硬化的具体方案
arxiv.org/abs/2605.01740 - Alignment Contracts for Agentic Security Systems — David, Guarnieri, Gervais (2026) · 形式化对齐合同
arxiv.org/abs/2605.00081 - Model Spec Midtraining — Li, Price, Marks, Kutasov (2026) · 把对齐文档塞进 midtraining,agentic 误对齐 54%→7%
arxiv.org/abs/2605.02087 - Symbolic Guardrails — Hong et al. (2026) · 与 BOA 互补
arxiv.org/abs/2604.15579