← 总导航 / Agent Skills Safety

Agent Skills Safety

Agent 技能安全边界 · agentic AI safety · tool use safety · autonomous agent alignment

归档报告（最新在前）

May

05

#1

BOA：把 Agent 安全度从采样翻成搜索——固定 GPU 预算下穷尽长尾不安全轨迹

Lin, Suri, Oprea, Tan · Northeastern Univ. · arXiv 2026-05-02

94 分
May

04

#1

Symbolic Guardrails：审 80 个 benchmark 得出 74% 策略可被符号守卫低成本保证

Hong, She, Kang, Timperley, Kästner · CMU · arXiv 2026-04-16

94 分
May

03

#1

Human-Guided Harm Recovery：为 Computer-Use Agent 补上"出错后怎么救"最后一环

Li, CH-Wang, Peng, Bobu · MIT / Columbia · arXiv 2026-04-20

93 分
May

02

#1

EPO-Safe：仅凭 1-bit 危险信号，Agent 自主发现可审计安全规约

Víctor Gallego · arXiv 2026-04-25 · 反思必须配专用 safety 通道

93 分
May

01

#1

OS-BLIND：良性指令下 CUA 的安全盲区——多 Agent 部署 ASR 飙至 92.7%

Ding, Zhai et al. · arXiv 2026-04-12 (v2) · Claude 4.5 Sonnet 失守

94 分
Apr

30

#1

Owner-Harm：Agent 安全被忽视的威胁——Agent 伤害部署它的人

Zhang, Jiang · arXiv 2026-04-20 · 14.8% vs 100% TPR

93 分
Apr

29

#2

不要让 AI Agent "YOLO"你的文件：把信息与控制权转移到文件系统

Zhong, Liao et al. · UW–Madison / HKUST(GZ) · arXiv 2026-04-15

91 分
Apr

29

#1

HarmfulSkillBench：公开技能生态如何把 Agent "武器化"？

Jiang, Zhang et al. · CISPA · arXiv 2026-04-16

92 分