2026-04-30 #1 · Safety Benchmark · Daily Paper Tracker

今日 Safety Benchmark 方向候选评分对比（共 5 篇）

标题（简）	方向细分	来源	综合分
CSTM-Bench: Cross-Session Threats in AI Agents今日选定	Cross-Session Evaluation	arXiv 2026-04-22	92
GAIA-v2-LILT: Multilingual Agent Benchmark	Multilingual Adaptation	arXiv 2026-04-27	87
PHMForge: Industrial Agent Benchmark	Domain-Specific Benchmark	arXiv 2026-04-02	82
WebForge: Browser Agent Benchmark	Browser Agent Eval	arXiv 2026-04-13	85
Uni-SafeBench: Unified Multimodal Safety	UMLM Safety	arXiv 2026-04-01	84

论文基本信息

作者Ari Azarafrooz

方向cs.CR / cs.AI / cs.CL / cs.LG — Agent Safety Benchmark

发表状态arXiv 预印本，v1，46 页，8 张图

提交时间2026 年 4 月 22 日

原文链接https://arxiv.org/abs/2604.21131

PDF 链接https://arxiv.org/pdf/2604.21131

DOI10.48550/arXiv.2604.21131

数据集huggingface.co/intrinsec-ai/cstm-bench

一句话核心贡献

      首次系统化"跨会话攻击"：把攻击拆到多个对话里，session-bound guardrail 和 Full-Log Correlator 召回都掉 ~50%，唯独 Coreset Memory Reader 存活。
    

摘要（中文翻译）

今天的 AI Agent guardrail 几乎都是 memoryless 的——每条消息被独立判定。这让攻击者能把攻击"稀释"到多个会话里：每一次单独看都无害，只有把所有会话聚合起来才能看出威胁信号。

本文做了三件事：

（1）构造 CSTM-Bench 数据集——26 种可执行攻击 taxonomy，按 kill-chain 阶段与跨会话动作（accumulate / compose / launder / inject_on_reader）分类，含 7 类身份锚（identity anchor）将"违规"定义为可被审计的 policy predicate。配有两个对照集（Benign-pristine, Benign-hard）和两个评估 split：Dilution 分片（54 个组合场景） 与 Cross-session 分片（12 个 isolation-invisible 场景），后者由闭环改写器生成——保持跨会话制品不变，仅软化表层措辞。

（2）把"跨会话检测"形式化为对下游 correlator LLM 的 信息瓶颈问题，实证发现：session-bound judge 从 dilution → cross-session 召回掉 ~50%；把所有 prompt 拼成一次长上下文的 Full-Log Correlator 同样掉 ~50%——这一切都发生在前沿模型的上下文窗口内，说明"长上下文不是解药"。

（3）提出 Bounded-Memory Coreset Memory Reader：K=50 时保留最高信号片段，是唯一在两个分片上都保持召回的方法。并把 CSR_prefix（ordered prefix stability，无 LLM 度量） 升为一等公民，与 F1 组合成复合指标 CSTM = 0.7·F1 + 0.3·CSR_prefix，在召回与服务稳定性之间形成 Pareto 前沿。

核心内容解读

问题动机：现有 agent safety benchmark 默认"攻击发生在单次对话中"。但真实场景里，攻击者完全可以把漏洞利用分 5 次会话慢慢诱导——每次看都合法。这种"跨会话威胁"在工业界时有出现（如"通过多次客服对话累积账户信息"），但学术界几乎没有对应 benchmark。作者首次把这件事做成一个可复现、可审计的评测集。

方法关键：三件事从 benchmark 抬升到可测度量学：

组件	解决的问题	关键创新
CSTM-Bench 数据结构	攻击如何跨会话"隐形"	26 种 taxonomy + 7 类身份锚 + 闭环改写器生成 cross-session 分片
信息瓶颈视角	guardrail 召回为何掉 50%	把"跨会话检测"抽象为：下游 LLM 能否从有限 token 预算里重建威胁特征
CSR_prefix 指标	ranker reshuffle 破坏 KV-cache 复用	LLM-free 的 ordered prefix stability，直接服务于生产部署

最反直觉的发现：把所有会话 prompt 拼成一次长上下文喂给 correlator（即 Full-Log Correlator）并不能恢复召回——它仍然掉 50%。这说明瓶颈不是 context window，而是长上下文本身没有"对齐到威胁信号"的 inductive bias。这对整个 memory-based safety 系统是一个基础性的警告。

工程可用性：CSR_prefix 被专门设计为 LLM-free——它只检查排序前缀的稳定性，因此可以零成本接入生产 guardrail 管线，不增加推理费用。CSTM 复合指标则把"召回 vs. 服务稳定性"做成 Pareto 前沿，让 benchmark 结果直接映射到 ops 决策。

与 BenchGuard / Judge Sensitivity 的对照：昨天已读的 BenchGuard（2604.24955）和 Judge Sensitivity（2604.24074）都是"审计 benchmark 本身"；CSTM-Bench 则是把 benchmark 扩展到一个此前根本没被度量过的威胁维度。三者组合起来才是 safety benchmark 研究的完整图景——既要审计现存 benchmark，又要补齐 missing 维度。

本文引用的关键文献（附链接）

Debenedetti et al. (2024) — AgentDojo: A Dynamic Environment to Evaluate Prompt Injection Attacks and Defenses
https://arxiv.org/abs/2406.13352

Andriushchenko et al. (2024) — AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents
https://arxiv.org/abs/2410.09024

Mazeika et al. (2024) — HarmBench: A Standardized Evaluation Framework for Automated Red Teaming
https://arxiv.org/abs/2402.04249

MITRE (2024) — ATLAS: Adversarial Threat Landscape for AI Systems（kill-chain 背景）
https://atlas.mitre.org/

Tishby & Zaslavsky (2015) — Deep Learning and the Information Bottleneck Principle
https://arxiv.org/abs/1503.02406

Clavié & Chaffin (2024) — ColBERT v2 and Coreset-based Retrieval for Guardrails
github.com/bclavie/RAGatouille

Zhang (2026) — How Sensitive Are Safety Benchmarks to Judge Configuration Choices?（同日 judge 敏感度研究，同系列问题域）
https://arxiv.org/abs/2604.24074

核心数据亮点

召回塌陷：session-bound judge 从 dilution → cross-session 分片，attack recall 掉 ~50%；Full-Log Correlator 同样掉 ~50%——说明"把长上下文塞进去"不能拯救。
Coreset Memory Reader (K=50)：是唯一在两个分片上都保持召回的方法，证明稀疏高信号片段保留 > 全量拼接。
CSTM 复合指标：0.7·F1(CSDA@action, precision) + 0.3·CSR_prefix，首次把"服务稳定性（KV-cache prefix 复用）"提升为 first-class metric。
数据集规模：Dilution split 54 场景 / Cross-session split 12 场景 / 26 种 taxonomy / 7 类 identity anchor；已在 Hugging Face 开源（intrinsec-ai/cstm-bench）。

对你三个研究方向的启发

Safety Benchmark

这是今年 safety benchmark 方向最有方法论价值的一篇：它把"benchmark 设计"本身做成了一套可传染的 pattern——单会话 → 多会话，prompt-level → memory-level，模型能力度量 → 服务稳定性度量。你做 Safety Benchmark 研究时，可以直接继承 CSTM 的方法论：每一个现有单 session benchmark 都可以被扩展出一个 cross-session 版本（CSTM-AgentHarm、CSTM-HarmBench……）。另一个值得抄的是 CSR_prefix——LLM-free 度量对生产部署极有价值。

Agent Skills Safety

Cross-session threat 是"agent skill memory"的对偶风险：如果 skill 有长期记忆，那么攻击也可以长期潜伏。你研究 Agent Skills Safety 时，应把"skill 是否会被多次无害调用累积出恶意后果"作为一个审查维度——这对带记忆的 skill（memory tool、persistent storage）尤其关键。Owner-Harm（今天同时已读）说的是单会话 + 结构错位；CSTM-Bench 说的是跨会话 + 聚合信号——两者合起来是 Agent Skills Safety 的完整攻击面。

Harness Engineering

Harness 设计者应该把 "跨会话记忆审计" 纳入第一等设计维度：每个 session 结束时，harness 必须产生一个可被 downstream correlator 消费的"session trace"，而不是把 session 丢弃。Coreset Memory Reader 的"K=50 高信号片段保留"非常适合作为 harness 的标准组件。此外，CSR_prefix 作为一个 harness-level 的 serving metric，比许多 Prompt-level 指标都更接近生产 ops 关心的东西。

CSTM-Bench：把攻击拆进多次对话，现有 Guardrail 直接腰斩——跨会话威胁首个系统 benchmark