← 总导航
/
Agent Skills Safety
Agent Skills Safety
Agent 技能安全边界 · agentic AI safety · tool use safety · autonomous agent alignment
归档报告(最新在前)
May
05
#1
BOA:把 Agent 安全度从采样翻成搜索——固定 GPU 预算下穷尽长尾不安全轨迹
Lin, Suri, Oprea, Tan · Northeastern Univ. · arXiv 2026-05-02
94 分
May
04
#1
Symbolic Guardrails:审 80 个 benchmark 得出 74% 策略可被符号守卫低成本保证
Hong, She, Kang, Timperley, Kästner · CMU · arXiv 2026-04-16
94 分
May
03
#1
Human-Guided Harm Recovery:为 Computer-Use Agent 补上"出错后怎么救"最后一环
Li, CH-Wang, Peng, Bobu · MIT / Columbia · arXiv 2026-04-20
93 分
May
02
#1
EPO-Safe:仅凭 1-bit 危险信号,Agent 自主发现可审计安全规约
Víctor Gallego · arXiv 2026-04-25 · 反思必须配专用 safety 通道
93 分
May
01
#1
OS-BLIND:良性指令下 CUA 的安全盲区——多 Agent 部署 ASR 飙至 92.7%
Ding, Zhai et al. · arXiv 2026-04-12 (v2) · Claude 4.5 Sonnet 失守
94 分
Apr
30
#1
Owner-Harm:Agent 安全被忽视的威胁——Agent 伤害部署它的人
Zhang, Jiang · arXiv 2026-04-20 · 14.8% vs 100% TPR
93 分
Apr
29
#2
不要让 AI Agent "YOLO"你的文件:把信息与控制权转移到文件系统
Zhong, Liao et al. · UW–Madison / HKUST(GZ) · arXiv 2026-04-15
91 分
Apr
29
#1
HarmfulSkillBench:公开技能生态如何把 Agent "武器化"?
Jiang, Zhang et al. · CISPA · arXiv 2026-04-16
92 分