Summer vacation diary
2025-07-10
复现了《VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents》中 BUA 部分,解决了以下问题
- Google Drive身份认证问题【关键:添加用户,开放API,代理转发】
- Agent无法打开Chrome【修改了Browser类,初始化浏览器的方式】
成果
Agent可以在特定场景下完成特定的任务,并生成Agent行为轨迹日志仍需完善
- 只有Deepseek API,缺少其他模型API(gpt4o,Gemini,Sonnet)
- 只复现了 BUA 部分,未复现 CUA 部分
- 仅在本地实现,未在服务器实现
总结
返校第一天,很开心,环境更优越,作息更规律,效率比家里高,收获感满满。
2025-07-11
看了一篇论文《Adversarial Attacks on Multimodal Agents》,对VLM进行Captioner attack或CLIP attack,其中
Captioner attack是针对有Captioner的VLM,Captioner可以增强VLM的表现,通常是由开放权重的小模型构成,由此基于权重构造一个触发图像攻击Captioner从而达到攻击VLM的目的。而CLIP attack属于对VLM的黑盒攻击,据信VLM使用了CLIP编码器,可以采用攻击一组CLIP模型并利用攻击的可迁移性达到攻击VLM的效果,思路是将对抗描述和带有扰动的图像作为正样本对,将良性描述(用户描述)和图像作为负样本对,通过余弦损失使正样本对的距离拉近、负样本对的距离拉远,从而实现CLIP攻击。攻击目标分为Illusioning和Goal misdirection两类
Agent分为VLM + captioner agent和VLM agent两类防御方式:
- 不同组件之间的一致性检查【对于有captioner的VLM,实验表明VLM可以产生正确的caption,但是当Captioner产生的caption作为VLM输入的时候,VLM攻击成功率会大大提高,当不同组件间不一致时,可能存在被攻击风险】
- 指令层次【对于易受攻击的组件,其产生的指令优先级应该低于难以受攻击的组件产生的指令,以此降低攻击成功率】
- 对攻击表现和良性表现作基准测试
开会,汇报接口文档,下周完成接口设计
总结
返校第二天,开始有点难受了,晚上和npy打电话的时候疯狂抱怨这里太枯燥了,没有夜宵,没有娱乐,整天从早坐到晚,日复一日(呵呵,也才两天你就坚持不住了吗孩子)
2025-07-12
尝试复现《Adversarial Attacks on Multimodal Agents》代码,配置服务器环境,受阻
想在服务器上复现 VPI 失败【困惑:如何获取Google Drive认证,如何在服务器启动Chrome,如何可视化agent的轨迹】,Windows本地和远程Linux服务器有所区别,项目跑不起来了
服务器配置 Agent Attack 失败【似乎是某个依赖下载失败,和已有库冲突】
- 一上午备受打击,感觉啥也没干就结束了
追剧《人生切割术》
悬疑剧,高分美剧,雨天,无脑刷剧一下午看了一部分《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》,这篇文章内容和《Adversarial Attacks on Multimodal Agents》相似度极高(一作为同一人),且代码仓库为同一个,明天计划看完这篇文章,并尝试跑agent-attack代码
总结
今天有点摆烂了,下午爽了一下午,晚上也感觉没有动力,明天想去游泳,希望明天能更高效
2025-07-13
看了一篇论文《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》,这篇论文与《Adversarial Attacks on Multimodal Agents》思想及其相似,与第一篇不同的是引入了一种系统的方式评估Agent的鲁棒性【Agent Robustness Evaluation (ARE)】,将自主Agent的每一个组件作为节点,并用有向边表示中间输出如何在组件之间流动。
同时本文也提出了两种不同的自主Agent框架:Evaluator+reflexion agent和Value function+tree search agent。
本文在 VisualWebArena 环境中评估了多模态语言模型Agent的鲁棒性,重点在于理解不同组件如何在复合系统中协同工作。研究发现当前最先进的Agent,包括在反射和树搜索等高级框架中使用 GPT-4o 的agent,也极易受到黑盒攻击。ARE 框架使我们能够评估每个组件的鲁棒性,并追踪对抗鲁棒性如何在系统中传播。
尝试复现《Adversarial Attacks on Multimodal Agents》代码,我尝试从白盒攻击入手,今天在服务器上配好了环境,并理清了captioner attack部分的代码逻辑。实验遇到的问题和解决方式如下:
- torch、torchvision、torchaudio版本问题【删除原有的torch,找到对应版本后重装】
- 服务器访问hugging face超时【将模型下载到本地,修改模型导入方式和模型路径】
游泳
哈哈哈,今天终于去游泳啦,在主校区的时候就想去,一直没有机会。今天和易老师一起去游泳,我表示我的心是热的,但是水是凉的。好冷啊~总结
从明天开始,实验室工作和小土堆学pytorch要同步进行,也算是繁忙工作中的调剂,也许交叉学习效率会更高呢。今天又是充实的一天,明天是一周的开始,抓紧在学校的时间,暑假好好学习,大干一场。