Daily Paper Tracker

AI 每日精选 · 中文解读 · 自动更新

由 CodeBuddy Agent 驱动 · 每天中午 12:00

研究方向

Harness Engineering

LLM 评估框架工程、evaluation harness、可复现评估系统设计

9 篇报告 →

Agent Skills Safety

Agent 技能安全边界、agentic AI safety、工具调用风险与对齐

8 篇报告 →

Safety Benchmark

safety/agent/alignment benchmark、HarmBench、TrustLLM、评估方法设计

8 篇报告 →

最近报告（全方向）

May

05

Harness

AgentPulse：18 个真实部署信号 × 50 个 Agent × 4 维度的连续评估框架

Gao, Wang, Yu · arXiv 2026-04-27 · #1

93 分
May

05

Safety

BOA：把 Agent 安全度从采样翻成搜索——固定 GPU 预算穷尽长尾不安全轨迹

Lin, Suri, Oprea, Tan · Northeastern Univ. · arXiv 2026-05-02 · #1

94 分
May

05

Benchmark

AcademiClaw：当大学生给 AI Agent 出题——80 道真实学术任务，最强模型只过 55%

Yu, Liu et al. · GAIR-NLP（上交大） · arXiv 2026-05-04 · #1

94 分
May

04

Harness

VeRO：第一个面向"Agent 优化 Agent"的可复现评测 Harness

Ursekar, Shanker, Chatrath et al. · arXiv 2026-02-25 · #1

93 分
May

04

Safety

Symbolic Guardrails：审 80 个 benchmark 得出 74% 策略可被符号守卫低成本保证

Hong, She, Kang, Timperley, Kästner · CMU · arXiv 2026-04-16 · #1

94 分
May

04

Benchmark

SafetyALFRED：把 ALFRED 扩成厨房物理安全——MLLM 认得出但救不了

Torres-Fonseca, Deng, Dai, Chai et al. · U-Michigan SLED · arXiv 2026-04-21 · #1

93 分
May

03

Harness

Terminal Wrench：331 个可 reward-hack 的 Agent 环境 + 3,632 条利用轨迹

Bercovich, Segal, Zhang et al. · arXiv 2026-04-19 · #1

94 分
May

03

Safety

Human-Guided Harm Recovery：Computer-Use Agent 的 post-execution 偏好恢复

Li, CH-Wang, Peng, Bobu · MIT / Columbia · arXiv 2026-04-20 · #1

93 分
May

03

Benchmark

RedVLA：首个 VLA 物理红队框架，10 次迭代 ASR 95.5%，附 SimpleVLA-Guard

Zhang et al. · Peking Univ. Yang 组 · arXiv 2026-04-24 · #1

94 分
May

02

Harness

《最后一次你需要亲手搭 Harness》：两层元进化自动化"自动化本身"

Seong, Yin, Zhang · arXiv 2026-04-22 · #1

94 分
May

02

Safety

EPO-Safe：仅凭 1-bit 危险信号，Agent 自主发现可审计安全规约

Víctor Gallego · arXiv 2026-04-25 · #1

93 分
May

02

Benchmark

CarryOnBench：第一个多轮 safety × utility 双目标 benchmark

Zheng, Morgan et al. · CMU/UW · arXiv 2026-04-29 · #1

94 分
May

01

Harness

SemaClaw：用 Harness Engineering 迈向通用个人 AI Agent 的开源实现

Zhu, Wang et al. · arXiv 2026-04-13 · #1

93 分
May

01

Safety

OS-BLIND：良性指令下 CUA 安全盲区，多 Agent 部署 ASR 飙至 92.7%

Ding, Zhai et al. · arXiv 2026-04-12 · #1

94 分
May

01

Benchmark

Claw-Eval-Live：首个"实时刷新"Agent 工作流基准，无人破 70% 门槛

Li, Tang et al. · arXiv 2026-04-30 · #1

94 分
Apr

30

Harness

AgentFlow：用类型化图 DSL 合成多 Agent Harness，挖出 10 个 Chrome 0-day

Liu, Shou et al. · arXiv 2026-04-22 · #1

94 分
Apr

30

Safety

Owner-Harm：Agent 安全被忽视的威胁——Agent 伤害部署它的人

Zhang, Jiang · arXiv 2026-04-20 · #1

93 分
Apr

30

Benchmark

CSTM-Bench：跨会话威胁首个系统 benchmark，guardrail 召回腰斩

Ari Azarafrooz · arXiv 2026-04-22 · #1

92 分
Apr

29

Harness

vla-eval：解耦模型推理与评测执行的统一 VLA 评估 Harness

Choi, Lee et al. · AI2 / UW / NVIDIA · arXiv 2026-03-14 · #2

92 分
Apr

29

Safety

不要让 AI Agent "YOLO"你的文件：把信息与控制权转移到文件系统

Zhong, Liao et al. · UW–Madison / HKUST(GZ) · arXiv 2026-04-15 · #2

91 分
Apr

29

Benchmark

安全 Benchmark 对评判者配置有多敏感？Judge Prompt 一词之差让 ASR 偏移 24.2 pp

Xinran Zhang · ICIC 2026 / Springer CCIS · arXiv 2026-04-27 · #2

93 分
Apr

29

Harness

Agentic Harness Engineering：由可观测性驱动的 Coding Agent Harness 自动演化

Lin, Liu et al. · 复旦/上海 AI Lab · arXiv 2026-04-28 · #1

93 分
Apr

29

Safety

HarmfulSkillBench：公开技能生态如何把 Agent "武器化"？

Jiang, Zhang et al. · CISPA · arXiv 2026-04-16 · #1

92 分
Apr

29

Benchmark

BenchGuard：谁来守护 Benchmark 本身？Agent Benchmark 的自动审计

Tu, Wang et al. · UW / Stanford · arXiv 2026-04-27 · #1

91 分
Apr

28

Harness

LLM Agent 外部化：记忆、技能、协议与 Harness Engineering 统一综述

Zhou, Chai et al. · 上海交通大学/CMU · arXiv 2026-04-09 · #1

94 分