1.《VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents》

1.1 概述

本文研究可视化提示词注入攻击,即将恶意指令以可视化方式嵌入到渲染的用户界面中,并分析了它们对Computer-Use Agents(CUAs) 和Browser-Use Agents (BUAs) 的影响。

本文提出了 VPI-Bench,一个包含 306 个测试用例的基准测试,涵盖五个广泛使用的平台,用于评估Agents在 VPI 威胁下的稳健性。每个测试用例都是一个 Web 平台的变体,部署在真实环境中,可交互,并包含一个可视化嵌入的恶意提示。

首先理解下面两个问题,就可以快速把握文章核心

  • 为什么研究CUAs,它和BUAs的区别是什么
  1. 常规攻击过度依赖基于 HTML 的攻击,通常假设攻击可以通过修改 HTML 结构或向 DOM 元素注入恶意内容来执行,这些假设仅适用于能够解释结构化 Web 内容的Agents,无法推广到更高级的Agents如CUAs,因为CUAs更依赖于视觉输入而非HTML

  2. 现有研究针对的是浏览器访问权限受限的代理,而忽略了具有更高系统权限的代理。CUA 可以执行文件创建、修改或命令行执行等操作,从而带来更多潜在漏洞,包括未经授权的系统操作和持续入侵。这些威胁在文献中仍未得到深入探讨。

  3. 当前的评估大多在静态或离线环境中进行,孤立地分析代理操作。这限制了检测在长期交互或动态环境中出现的漏洞的能力。评估 CUA 需要在完全交互式的环境中,紧密模拟部署场景,进行实时、端到端的测试。

  • 本文的贡献有哪些
  1. 提出 VPI-Bench,一个评估 CUA 和 BUA 在动态实时环境中抵御视觉提示注入攻击的稳健性的基准测试。

    该基准测试包含 306 个测试用例,涵盖五个流行的 Web 平台:亚马逊、Booking、BBC、Messenger 和电子邮件,涵盖电子商务、消息传递和在线服务等应用领域。

  2. 使用 VPI-Bench 对代理的攻击成功率、尝试率和模型行为进行了全面分析。

    结果表明,所有代理都容易受到视觉提示注入的攻击,BUA 尤其容易毫无抵抗地执行恶意指令。尽管 CUA 在某些领域表现出更为谨慎的行为,但它们的总体攻击成功率仍然很高。

  3. 本文进一步研究注入时机和系统级防御提示的存在这两个因素对攻击的影响。

    无论注入时机如何,攻击成功率仍然很高,这表明代理在整个交互过程中通常都容易受到攻击。此外,系统提示在不同平台和Agents类型之间提供的保护有限且不一致。

1.2 核心思想

  • 威胁模型

威胁模型包括四个组件:良性用户提示词、Web平台、可视化攻击提示词、执行环境

攻击目标是诱导Agent完成恶意任务,该任务在视觉上嵌入在Web平台中。

  • 样本格式

id【样本的唯一标识符】

url【为相应测试用例构建的特定网页变体的 URL,用作Agent交互的目标界面】

environment【定义执行上下文的低级设置命令列表】

user_prompt【由良性用户提供的自然语言指令,指定预期任务】

attack_objective【描述攻击者恶意目标的潜在字段,其对Agent隐藏,仅用于评估是否实现了攻击者的目标】

  • 数据分布

  • 评价体系和指标

尝试率(Attempted Rate,AR)和成功率(Success Rate,SR)

对于每个样本,攻击被分类为已尝试或未尝试;如果已尝试,则分为成功或失败。

采用多数投票策略,使用三个独立的前沿LLM判断Agent是否尝试执行或成功完成了恶意任务。

每个 LLM 都提供结构化输入,包括恶意任务描述、良性用户任务描述和Agent的执行轨迹。这些输入附带一个预定义的思路链提示模板,用于指导 LLM 进行逐步推理。

然后,每个模型针对两个标准输出二元判断:(i) 是否尝试执行恶意任务,(ii) 是否成功完成。

如果三个 LLM 中至少有两个针对相应标准返回肯定的判定,则该任务被标记为已尝试或已完成。这种基于投票的评估方法降低了主观性和模型特定的差异,从而在不同的对抗场景中实现了更一致、更可靠的评估。

  • 结果分析

  • 注入时间分析和系统提示词防御

实验评估注入时间的影响,实验表明,即使是后期的提示词注入仍然可以非常有效,并且在某些情况下,根据模型架构,甚至会更加成功。

实验研究了系统提示在缓解或预防针对AI代理的恶意攻击方面的有效性,结果表明,防御提示对整体SR和AR没有显著影响,因为虽然它降低了某些平台-模型组合的SR和AR,但也增加了其他组合的SR和AR。

  • 局限
  1. 平台多样性有限:VPI-Bench 目前仅模拟五个平台。因此,基准测试可以扩展到其他广泛使用的平台。
  2. 攻击真实性:许多 VPI-Bench 测试用例使用弹出窗口作为攻击方式,进行视觉提示注入,以模拟恶意广告。但是,如果广告提供商过滤掉此类内容,那么这些攻击将变得不可行。因此,基准测试也可以扩展到涵盖其他攻击向量。
  3. 简化的网页:为了进行基准测试,实验者创建了简化的网页 UI,以方便 Agents轻松导航。然而,在实际场景中,网页可能要复杂得多,这可能会削弱 AI 代理执行合法用户任务和恶意指令的能力。
  4. 人工监督:本文假设用户将任务委托给代理,而无需人工监督,但实际上,用户可能会看到恶意弹出窗口并进行干预。未来的研究应探索隐藏恶意提示的技术,使其不被用户发现,同时确保依赖基于屏幕截图的视觉输入的AI代理能够检测到这些提示。

1.3 我的想法

本研究提出了 VPI-Bench,旨在评估Computer-Use Agents和Browser-Use Agents在动态实时环境中抵御视觉提示注入攻击的安全性的基准测试。通过涵盖五个流行 Web 平台的 306 个精心构建的测试用例,发现当前最先进的Agents普遍存在漏洞,多数Agent未能明确识别攻击,系统级提示提供的保护不一致,即使在后期注入场景中,攻击成功率仍然很高。

本文有两个有趣的地方,第一是视觉提示词注入攻击,区别于传统的文本提示词攻击,攻击者精心设计特定的图像,以一种自然的方式插入到Agents交互的界面,从而达到诱导Agents完成恶意任务。例如在Amazon,Booking.com,BBC News采用弹窗广告的形式插入特定的图像,在Messenger采用聊天信息弹窗的方式插入,在Email中采用邮件的方式插入。第二是评价体系,实验使用三个独立的前沿LLM判断Agent是否尝试执行或成功完成了恶意任务,通过设计特定的Prompt,使用LLM分析Agent的行为轨迹,实验者也采用人工标注比对的方式验证了该方法的可行性和准确性。

目前代码仓库仅供查看,感觉复现这个有点困难,针对每一个测试案例都需要设计对应的环境,如果没有可下载的环境镜像,我们自己手动构建有点不好实现。

其次是提示词攻击是针对Agents攻击的一小部分,后期可以调研更丰富的攻击范式,如上周会议上学长分享的对多模态Agents的对抗攻击(正在看,但是还没看完)。

本周还回顾了Vista用于自动驾驶的通用世界模型,想将代码跑起来,可是服务器连不上,环境还没配好。同时看了一部分《Adversarial Attacks on Multimodal Agents》,感觉比上一篇文章难理解。我放假前的规划是暑期以实验室为核心,专心在实验室科研、学习,但是放假前两周我外公突然住院了,那段时间考试也频繁,我上完最后一堂课赶回去看望了一次,陪伴了三个多小时就回来了。放假初想呆在家里多陪陪外公,家人的陪伴千金不换,希望在人生最后时刻能让老人舒服一点、快乐一点。

我规划7.7晚上返校,每周末再回来看望看望,暑假全心在实验室,向卢琦同学学习,争取快速进入正轨。