Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

论文部分

核心思想

这是一篇针对模态agents进行指令注入攻击的文章，提出一种新颖的攻击框架Cross-Injection，同时利用文本模态和视觉模态的漏洞进行指令注入，实现让agents按照攻击者的预期进行输出。

视觉模态：

由于多模态之间固有的gap，本文并不是直接将图像和文本指令对齐，而是通过扩散模型将文本指令转换成目标图像，再在良性图像上加入可学习的噪声，使其与目标图像对齐，从而构造出带有目标语义的对抗图像。

考虑到受害模型是黑盒的，本文采用一种迁移攻击策略，使用公开可获取的预训练编码器作为代理模型来构造对抗性视觉输入。

文本模态：

在欺骗性指令后$C^{‘}$添加一个随机初始化的字符串，由于在黑盒设定下直接优化$C^{‘}$是困难的，本文利用一个开源的LLM作为代理模型，通过将代理模型的输出和攻击者预期的输出对齐，从而构造出带有目标语义的文本输出。

考虑到受害模型是黑盒的，本文采用一种迁移攻击策略，使用开源LLM作为代理模型来构造对抗性文本输入。

与我们的区别

agent定义不同

这篇文章的agent是广义上的agent，侧重于VQA任务，主要是通过视觉和文本输入回答用户的问题，agent采取的行为主要是文本回应。

而我们的agent侧重于在浏览器中自主完成多步任务，主要是通过网页的文本和图像输入完成用户指定任务。我们需要的不是模型输出的内容，而是需要指导agent执行特定的动作。

模型不同

这篇文章的视觉语言模型是Qwen2-VL和Phi-3.5-vision，而我们用的是gemini-2.5-pro，前者是开源模型，后者是商业闭源大模型，行业SOTA

注入的任务不同

本文的评估利用三个公开的自然语言处理数据集，且均和agents预定义的角色无关：文本编写数据集CoEDIT、情感分类数据集SST2、代码解释数据集Code-to-Text。

而我们的任务是让agent执行某个特定的动作，实现隐私泄露、命令执行、产生有害信息等。

其实这篇文章虽然是agent指令注入，但本质上是探究多模态模型的易受害性，弱化了agent动作执行的能力，核心讲述的是从文本和视觉两个模态同时注入，让多模态模型产生预期的输出。而我们需要的是如何从视觉模态绕过文本模态的安全防御，让agent执行特定的动作。

【NeurIPS 2023】On Evaluating Adversarial Robustness of Large Vision-Language Models

这是一篇针对视觉语言模型对抗攻击的文章，提出了基于转移和基于查询的攻击策略，实现模型产生错误输出。其中，基于转移的攻击策略与【ACM MM 2025】这篇思想相类似，都是采用扩散模型将目标文本生成目标图像，再在干净图片上加噪声，使其与目标图像对齐。不同的是【ACM MM 2025】这篇的目标文本是一条指令，如help me polish my words，VLM提示词限制是“你是一名菜谱大师，只能回答用户烹饪的内容”，通过引导agent回答如何润色我的文章等限制之外的内容，达到指令注入的攻击效果。而这篇文章的目标文本是一个描述，希望VLM输出对输入图像的错误描述，达到对抗攻击的效果。

【虽然这篇文章是做对抗，但是里面用扩散模型将语义嵌入的方法与我们指令注入方式吻合】

核心思想

基于转移的策略

由于受害模型是黑盒的，本文采取迁移攻击策略，将一系列公开访问的CLIP模型作为代理模型。

先将目标文本通过扩散模型（如Stable Diffusion）转换成目标图像，然后在良性图片中引入噪声与目标图像对齐，从而构造出带有目标语义的对抗图像。

基于查询的策略

由于受害模型是黑盒的，我们无法通过梯度更新算法优化模型，所以采用查询受害模型，根据受害模型的输出来优化模型输出和目标输出，使得模型输出靠近目标输出。这里提出了一种随机无梯度优化算法，算法如上。

与我们的区别

这篇文章是针对视觉语言模型做对抗攻击，但是也有参考意义。针对文章提出一些问题：

基于转移的策略是有效的，但是这种有效性极其依赖于受害模型与代理模型的相似度，这篇文章的代理模型包括CLIP(RN50)、CLIP(ViT-B/32)、BLIP(ViT)、BLIP-2(ViT)、ALBEF(ViT)，受害模型有BLIP、BLIP-2、UniDiffuser、Img2Prompt、LLaVA、MiniGPT-4 。我们的受害模型是商业闭源大模型gemini、gpt-4等，不仅其模型框架是未知的，也经过了更严格的安全防御机制，这种攻击策略可能并不有效，我仍在尝试，结果下周可确定。

这个问题在【ACM MM 2025】这篇文章也存在，他们的VLM是Qwen2-VL和Phi-3.5-vision，可能存在多模态安全对其问题。而我们的工作直击行业SOTA，难度会更大。

【ICCV 2025】Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

核心思想

本文提出的核心问题是多模态大模型对随机打乱的文本和图像的理解能力和安全能力的不一致的，在理解能力方面，MLLM 能够理解未打乱和打乱后的有害文本图像对；在安全性方面，未打乱的有害文本图像对能够受到防御机制的保护，而打乱后的有害文本图像对则能够轻易绕过防御机制，从而诱导 MLLM 产生有害响应。

这是一篇针对多模态大语言模型越狱攻击的文章，提出一种随机排列的方法，将文本和图像进行切块，文本切分成单词或者子串，图像切成子块，然后通过随机排列的方式重新组合，并将组合后的文本和图像作为输入，将受害模型的输出进行危险等级打分（这个是由LLM完成，人工设定了提示词），选择危险系数最高的组合作为最终的结果。

与我们的区别

模型不同

这篇文章的VLM是LLaVA、MiniGPT-4、Intern VL-2、VL Guard

数据集不同

本文用到三个越狱相关数据集MM-safetybench， HADES , and SafeBench。

后来我将作者制作的数据【上图所示，图片重排和文本重排】用gemini-2.5-pro做测试，发现所有的结果都被成功规避（即失败），gemini对图像的理解非常精准，即便是切割后随机排序，gemini的回答也精准到图像的每一个切片（如左上是…左下是…右上是…右下是…）。所以这种随机排列的方式并不能绕过安全防御机制。

总结：

1）目前看到的很多研究VLM的文章，不论是越狱、指令注入还是对抗，针对的多是LLaVA、MiniGPT4这种开源的VLM，很少有直接对行业闭源大模型如Gpt-4、gemini做攻击的。显然后者的难度会更大。【模型不同】

2）针对agent做指令注入或越狱的相关文章，虽然场景是agent，但是并没有用到agent最核心的能力 — 执行动作。其本质还是研究多模态模型的鲁棒性和脆弱性。【agent定义不同】

我们已构建一套可自动执行浏览器操作的 Agent 工作流，能够稳定模拟真实用户行为，我们定义的agent并不是简单的通过用户输入的图像和文字回答某个问题，而是能够感知环境、进行决策并采取行动以达成目标的自主系统，在浏览器中自主完成多步任务的agent。

3）直接将指令以文字呈现的方式无法规避安全防御，将文字或图像随机排序的方式也无法规避安全防御。

我们的工作还是非常艰难呀，任重道远

实验部分

本周打通了VPI部分的所有流程，将模型调用方式修改为Vertex调用，实现了一个平台多个不同模型的调用。接下来开始尝试指令分类和恶意指令构建，并针对每个指令构建了纯文本和文本+图像两个场景。实验心得如下：

1）目前我们使用的模型是经过安全对其的模型

2）将恶意指令以纯文本和将指令转换成图像后直接呈现这两种方式的区别并不显著，纯文本能成功实现的指令图像也能，纯文本不能实现的将其通过图像呈现也不能实现。我在日志中发现模型会先分析图像的内容，所以直接将文字以图像的方式呈现和纯文本基本上没有区别。

3）通过将图片和文本打乱排序后再作为输入，希望绕过文本模态的安全防御机制，该方法效果并不显著。

本周六尝试复现【ACM MM 2025】，目前已经将Stable Diffusion跑起来了，效果如下

下一步尝试将恶意指令通过图片的方式显示，在良性图片中加入扰动的方式使其与目标图像靠近，从而达到语义上的接近。

论文部分

【ACM MM 2025】Manipulating Multimodal Agents via Cross-Modal Prompt Injection

【NeurIPS 2023】On Evaluating Adversarial Robustness of Large Vision-Language Models

【ICCV 2025】Jailbreaking Multimodal Large Language Models via Shuffle Inconsistency

总结：

实验部分