2026-05-05 #1 · Agent Skills Safety

今日 Agent Safety 方向候选评分对比（共 5 篇候选）

标题（简）	方向细分	来源	综合分
Toward a Principled Framework for Agent Safety Measurement (BOA)今日选定	搜索式安全度量（不再靠采样）	arXiv 2026-05-02 (Lin/Suri/Oprea/Tan)	94
Architectural Obsolescence of Unhardened Agentic-AI Runtimes	Agent 网关运行时硬化	arXiv 2026-05-03 (Metere)	90
Alignment Contracts for Agentic Security Systems	形式化"对齐合同"	arXiv 2026-04-30 (David/Guarnieri/Gervais)	91
When Embedding-Based Defenses Fail: Multi-Agent Systems	多 Agent 嵌入防御失败案例	arXiv 2026-05-01 (Zhang/Zheng/Chen)	88
Model Spec Midtraining: Improving Alignment Generalization	对齐训练泛化（54%→7% 误对齐）	arXiv 2026-05-03 (Li/Price/Marks/Kutasov)	90

论文基本信息

英文标题Toward a Principled Framework for Agent Safety Measurement

中文标题面向 Agent 安全度量的原则性框架（BOA）

作者Shuyi Lin, Anshuman Suri, Alina Oprea, Cheng Tan

机构Northeastern University 安全与系统组（Oprea 长期方向）

发表状态arXiv 预印本 v1

提交时间2026-05-02

arXiv 链接https://arxiv.org/abs/2605.01644

PDF 链接https://arxiv.org/pdf/2605.01644

DOI10.48550/arXiv.2605.01644

分类cs.CR / cs.AI

核心方法BOA：likelihood-budget 受限轨迹搜索（in-round + cross-tree）

工程优化Batched decoding/judging · prefix caching · chunked tree expansion

一句话核心贡献

      把 Agent Safety 度量从"几次采样均值"改成"likelihood 预算受限的搜索"，可在同一刻度上对比模型 / 防御 / 攻击。
    

摘要（中文翻译，忠实原文）

LLM Agent 输出的是动作而不仅是文本，而动作一旦做出往往无法撤销。然而当下的 Agent 安全评估多用贪心或寥寥几次采样，给出一个"安全/不安全"二值率——这对"低概率却非可忽略"的长尾轨迹完全失明。

作者主张：Agent 安全应当用搜索来度量，而非采样。论文给出 BOA 框架——给定一份部署配置（模型、解码器、prompt、环境、判官、likelihood 预算），BOA 在预算内的轨迹空间里搜索，并报告"在该配置下 Agent 保持安全的概率"作为安全分数。BOA 既在单轮 LLM 解码内部搜，也跨越Agent–环境交互树搜；并通过批处理解码/判官、prefix caching、分块树展开等工程手段把搜索做得切实可行。在主流 Agent-safety workload 上，BOA 能发现贪心和采样都漏掉的不安全轨迹；同时还可在同一刻度上为模型、防御、攻击三方排序，GPU 成本可控。

核心内容解读（背景·方法·差异）

解决了什么问题：过去一周 Agent Safety 主线集中处理"真实部署里的安全"——Owner-Harm 关注 Agent 伤害部署者本人，OS-BLIND 揭示 CUA 在良性指令下的盲区，EPO-Safe 用 1-bit 危险信号让 Agent 自定规约，Human-Guided Harm Recovery 把"出错后怎么救"补上，Symbolic Guardrails 在 80 个 benchmark 上证明符号守卫足以保住 74% 安全策略。但这些工作都把"安全分"当作一个可信的标量来用——而 BOA 这篇文章直接质疑了这一前提：今天大家口中的"安全率"到底测得准不准？

核心洞察：采样式评测只能看到分布的中间地带；但 Agent 出问题往往出在长尾——一个 0.5% 概率的危险动作，在百万次部署中就是 5,000 次。把这种长尾用 4 次采样去估，平均会得到 0% 不安全率，但实际损失巨大。

BOA 关键概念	具体做法	解决了什么
Likelihood Budget（似然预算）	把搜索空间限制在"配置下出现概率 ≥ ε"的轨迹	避开"理论上存在但极不可能"的鬼故事；让度量可控
双层搜索	(a) 单轮 LLM 解码内的 token 搜索；(b) Agent–环境交互树的多轮搜索	同时覆盖"模型一次输出选错"和"多步累积走偏"
Safety Score = P(safe)	枚举到的不安全轨迹按 likelihood 加权求和	把"是否安全"换成"安全的概率"——可比、可加、可拆
批处理 + prefix caching + 分块展开	典型工程优化让"看起来不可承受"的搜索变得可承受	使 BOA 在常规 GPU 集群上可跑——这是它能成为标准的关键

与现有工作的核心差异：

对比 sampling-based agent benchmark：HarmBench / AgentDojo / CarryOnBench 等都报告"k 次采样里的不安全率"。BOA 不是再加几个采样，而是把"率"重新定义为"在 likelihood 预算内的安全概率"，避开"采样越多越像在 cherry-picking"的方法论批评。
对比 Symbolic Guardrails / EPO-Safe：那两篇是给 Agent 加约束。BOA 是给 Agent 测温度计——它和守卫机制天然互补，可以衡量"加了 Symbolic Guardrails 之后的安全分究竟提了多少"。
对比 model-only safety eval：BOA 不只评模型，把模型 / 解码器 / 防御层 / 攻击者放在同一刻度上排序——这是过去 LLM safety 评测里几乎没人做到的。

实证发现的重要性：BOA 在 agent-safety workloads 上"发现了贪心和采样都漏掉的不安全轨迹"——也就是说，今天市面上一些被报告为"99% 安全"的 Agent，BOA 仍能找到 likelihood 不可忽略的危险路径。这对监管、合规、保险定价的影响显而易见。

本文对齐 / 借鉴的关键工作（附链接）

Andriushchenko et al. (2024) — AgentDojo（动态 prompt-injection benchmark）
arxiv.org/abs/2406.13352

Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework
arxiv.org/abs/2402.04249

Liu et al. (2023) — AgentBench: Evaluating LLMs as Agents
arxiv.org/abs/2308.03688

Chao et al. (2023) — PAIR: Jailbreaking Black Box LLMs in 20 Queries（搜索式攻击思想前身）
arxiv.org/abs/2310.08419

Hong et al. (2026) — Symbolic Guardrails for Domain-Specific Agents（与 BOA 互补）
arxiv.org/abs/2604.15579

Zheng, Morgan et al. (2026) — CarryOnBench（多轮 Safety×Utility benchmark）
arxiv.org/abs/2604.27093

核心数据亮点 / 关键论点

"采样式安全分对长尾失明"被首次形式化：论文明确论证：贪心或 4 次采样的安全率本质是"分布峰值的样本估计"，对低概率高危轨迹的覆盖几乎为 0；BOA 用 likelihood-budget 替换"采样次数"，让长尾覆盖成为可调旋钮。
双层搜索 = 单轮 + 交互树：过往工作要么只看模型一次输出（红队 prompt），要么只看多轮 trace（agent-bench），BOA 把两者统一成一个搜索目标 P(safe)。
同一刻度评比模型 / 防御 / 攻击：这是 BOA 最具工程意义的贡献——目前业界争论"加了某 guardrail 安全度上升多少"几乎是无标准对话，BOA 给出可比的数字。
GPU 成本可承受：论文强调"manageable GPU costs"——通过 prefix caching、批量判官，避免了搜索式评测之前"理论上对、工程上跑不动"的失败模式。

对你三个研究方向的启发

Harness Engineering

BOA 给 harness 增加了一个迄今被忽视的维度："评测函数本身的统计完备性"。今天 harness 工程的成熟度大多停留在"能跑起来 + 能复现"，但 BOA 提示我们：采样式评测函数从一开始就是 biased estimator。建议把 BOA 的 likelihood-budget 思想引入 VeRO / AgentPulse——把每个被监测的 Agent 的安全分从"评分"升级为"P(safe) 区间"，让 harness 输出从点估计变成置信区间，工程价值极大。

Agent Skills Safety

对正在做 Agent Safety 研究的人，BOA 是一个迟早要采用的工具：(a) 评估自家防御方案 (Symbolic Guardrails / EPO-Safe / Owner-Harm SSDG) 时，请同时报告 BOA 给出的 P(safe) 提升量，避免被"采样巧合"误导；(b) 设计技能时如果某项技能的 likelihood-budget 内 P(unsafe) ≥ 5%，就必须提前在 manifest 里声明高风险并接入运行时守卫；(c) BOA 把"安全"做成可审计的概率，对监管报告和保险评估极有用——这本身就是一条产品化路径。

Safety Benchmark

BOA 实质是给 Safety Benchmark 提供了"正确的统计基底"。后续 benchmark 工作（如下日 Benchmark 报告里我们要选的 AcademiClaw 等）若要保留权威性，应在评分体系中至少给出"采样估计"和"BOA 估计"的双数字；当二者偏离>5pp 时，应触发重审。这能直接降低 Judge Sensitivity 揭示的"评判口径偏移"对结果的破坏。

BOA：把"Agent 安全度"从采样翻成搜索——第一次能在固定 GPU 预算下穷尽长尾不安全轨迹