暑假行程日记

Summer vacation diary

2025-07-10

复现了《VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents》中 BUA 部分，解决了以下问题
- Google Drive身份认证问题【关键：添加用户，开放API，代理转发】
- Agent无法打开Chrome【修改了Browser类，初始化浏览器的方式】
成果
Agent可以在特定场景下完成特定的任务，并生成Agent行为轨迹日志
仍需完善
- 只有Deepseek API，缺少其他模型API（gpt4o,Gemini,Sonnet）
- 只复现了 BUA 部分，未复现 CUA 部分
- 仅在本地实现，未在服务器实现
总结
返校第一天，很开心，环境更优越，作息更规律，效率比家里高，收获感满满。

2025-07-11

看了一篇论文《Adversarial Attacks on Multimodal Agents》，对VLM进行Captioner attack或CLIP attack，其中
Captioner attack是针对有Captioner的VLM，Captioner可以增强VLM的表现，通常是由开放权重的小模型构成，由此基于权重构造一个触发图像攻击Captioner从而达到攻击VLM的目的。而CLIP attack属于对VLM的黑盒攻击，据信VLM使用了CLIP编码器，可以采用攻击一组CLIP模型并利用攻击的可迁移性达到攻击VLM的效果，思路是将对抗描述和带有扰动的图像作为正样本对，将良性描述（用户描述）和图像作为负样本对，通过余弦损失使正样本对的距离拉近、负样本对的距离拉远，从而实现CLIP攻击。

攻击目标分为Illusioning和Goal misdirection两类
Agent分为VLM + captioner agent和VLM agent两类

防御方式：
- 不同组件之间的一致性检查【对于有captioner的VLM，实验表明VLM可以产生正确的caption，但是当Captioner产生的caption作为VLM输入的时候，VLM攻击成功率会大大提高，当不同组件间不一致时，可能存在被攻击风险】
- 指令层次【对于易受攻击的组件，其产生的指令优先级应该低于难以受攻击的组件产生的指令，以此降低攻击成功率】
- 对攻击表现和良性表现作基准测试
开会，汇报接口文档，下周完成接口设计
学习Docker基础知识
视频地址
 笔记地址
总结
返校第二天，开始有点难受了，晚上和npy打电话的时候疯狂抱怨这里太枯燥了，没有夜宵，没有娱乐，整天从早坐到晚，日复一日（呵呵，也才两天你就坚持不住了吗孩子）

2025-07-12

尝试复现《Adversarial Attacks on Multimodal Agents》代码，配置服务器环境，受阻
- 想在服务器上复现 VPI 失败【困惑：如何获取Google Drive认证，如何在服务器启动Chrome，如何可视化agent的轨迹】，Windows本地和远程Linux服务器有所区别，项目跑不起来了
- 服务器配置 Agent Attack 失败【似乎是某个依赖下载失败，和已有库冲突】
- 一上午备受打击，感觉啥也没干就结束了
追剧《人生切割术》
悬疑剧，高分美剧，雨天，无脑刷剧一下午
看了一部分《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》，这篇文章内容和《Adversarial Attacks on Multimodal Agents》相似度极高（一作为同一人），且代码仓库为同一个，明天计划看完这篇文章，并尝试跑agent-attack代码
总结
今天有点摆烂了，下午爽了一下午，晚上也感觉没有动力，明天想去游泳，希望明天能更高效

2025-07-13

看了一篇论文《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》，这篇论文与《Adversarial Attacks on Multimodal Agents》思想及其相似，与第一篇不同的是引入了一种系统的方式评估Agent的鲁棒性【Agent Robustness Evaluation (ARE)】，将自主Agent的每一个组件作为节点，并用有向边表示中间输出如何在组件之间流动。

同时本文也提出了两种不同的自主Agent框架：Evaluator+reflexion agent和Value function+tree search agent。

本文在 VisualWebArena 环境中评估了多模态语言模型Agent的鲁棒性，重点在于理解不同组件如何在复合系统中协同工作。研究发现当前最先进的Agent，包括在反射和树搜索等高级框架中使用 GPT-4o 的agent，也极易受到黑盒攻击。ARE 框架使我们能够评估每个组件的鲁棒性，并追踪对抗鲁棒性如何在系统中传播。
尝试复现《Adversarial Attacks on Multimodal Agents》代码，我尝试从白盒攻击入手，今天在服务器上配好了环境，并理清了captioner attack部分的代码逻辑。实验遇到的问题和解决方式如下：
- torch、torchvision、torchaudio版本问题【删除原有的torch，找到对应版本后重装】
- 服务器访问hugging face超时【将模型下载到本地，修改模型导入方式和模型路径】
游泳
哈哈哈，今天终于去游泳啦，在主校区的时候就想去，一直没有机会。今天和易老师一起去游泳，我表示我的心是热的，但是水是凉的。好冷啊~
总结
从明天开始，实验室工作和小土堆学pytorch要同步进行，也算是繁忙工作中的调剂，也许交叉学习效率会更高呢。今天又是充实的一天，明天是一周的开始，抓紧在学校的时间，暑假好好学习，大干一场。