CrossInject
1. 论文部分【ACM MM 2025】Manipulating Multimodal Agents via Cross-Modal Prompt Injection本文针对多模态Agents提出一种跨模态提示词注入攻击,使得外部指令劫持agents在决策过程中执行未授权的任务。 本文提出CrossInject,一种新颖的攻击框架。该方法包含两个关键部分:视觉潜在对齐和文本引导增强。 1.研究背景是什么? 视觉语言模型(VLM)的快速发展显著增强了多模态智能体的能力【VLM推动多模态Agents发展】 多模态Agents在虚拟助手、自动驾驶系统和实体智能体等领域应用广泛【现实世界应用广泛】 在单一模态中广泛研究,但是针对黑盒多模态的系统性攻击和跨模态交互的研究匮乏【文献空白】 与单模态系统不同,多模态代理整合了来自不同模态的语义丰富的输入,这些输入共同影响agents的决策过程 2.核心思想 视觉潜在对齐(Visual Latent...
Pytorch Tutorial
项目树.├── pycache/ [目录]├── check_point/ [目录]├── dataset/ [目录]├── img/ [目录]├── model.py [Python文件]├── test.py [Python文件]├── train_optimized.py [Python文件]└── train.py ...
Adversarial Attacks on Multimodal Agents
1.【ICLR 2025】《Adversarial Attacks on Multimodal Agents》1.1 攻击方法本文提出针对多模态Agent的对抗攻击,基于视觉的语言模型(VLM)l可以用于构建自主多模态Agent,尽管攻击者对环境的访问和认知有限,多模态Agent仍然存在新的安全风险。 研究者采用对抗性文本字符串,引导对环境中一幅触发图像进行基于梯度的扰动。本文提出两种攻击方式: captioner attack 如果白盒字幕器被用来将图像处理成字幕并作为 VLM 的额外输入,captioner attack就会攻击白盒字幕器。 理解下面三个问题,即可把握captioner...
Docker
一、下载安装Docker参考文档参考视频 二、网络环境配置镜像站 Docker Hub镜像配置教程 docker_installer Linux配置镜像站1sudo vi /etc/docker/daemon.json 1234567{ "registry-mirrors": [ "https://docker.m.daocloud.io", "https://docker.1panel.live", "https://hub.rat.dev" ]} 重启docker1sudo service docker restart 三、Docker常用命令1.镜像(Image)相关命令 操作 命令 搜索镜像 docker search nginx 拉取镜像 docker pull nginx 查看本地镜像 docker images 删除镜像 docker rmi nginx 或 docker rmi...
VPI-Bench
1.《VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents》1.1 概述本文研究可视化提示词注入攻击,即将恶意指令以可视化方式嵌入到渲染的用户界面中,并分析了它们对Computer-Use Agents(CUAs) 和Browser-Use Agents (BUAs) 的影响。 本文提出了 VPI-Bench,一个包含 306 个测试用例的基准测试,涵盖五个广泛使用的平台,用于评估Agents在 VPI 威胁下的稳健性。每个测试用例都是一个 Web 平台的变体,部署在真实环境中,可交互,并包含一个可视化嵌入的恶意提示。 首先理解下面两个问题,就可以快速把握文章核心 为什么研究CUAs,它和BUAs的区别是什么 常规攻击过度依赖基于 HTML 的攻击,通常假设攻击可以通过修改 HTML 结构或向 DOM 元素注入恶意内容来执行,这些假设仅适用于能够解释结构化 Web...
信号与系统
第一章 信号与系统 第二章 线性时不变系统 第三章 傅里叶变换 第四章 离散时间的傅里叶变换 第五章 采样 第六章 拉普拉斯变换 第七章 Z变换





