Summer vacation diary

2025-07-10

  1. 复现了《VPI-Bench: Visual Prompt Injection Attacks for Computer-Use Agents》中 BUA 部分,解决了以下问题

    • Google Drive身份认证问题【关键:添加用户,开放API,代理转发】
    • Agent无法打开Chrome【修改了Browser类,初始化浏览器的方式】
  2. 成果
    Agent可以在特定场景下完成特定的任务,并生成Agent行为轨迹日志

  3. 仍需完善

    • 只有Deepseek API,缺少其他模型API(gpt4o,Gemini,Sonnet)
    • 只复现了 BUA 部分,未复现 CUA 部分
    • 仅在本地实现,未在服务器实现
  4. 总结
    返校第一天,很开心,环境更优越,作息更规律,效率比家里高,收获感满满。

2025-07-11

  1. 看了一篇论文《Adversarial Attacks on Multimodal Agents》,对VLM进行Captioner attack或CLIP attack,其中
    Captioner attack是针对有Captioner的VLM,Captioner可以增强VLM的表现,通常是由开放权重的小模型构成,由此基于权重构造一个触发图像攻击Captioner从而达到攻击VLM的目的。而CLIP attack属于对VLM的黑盒攻击,据信VLM使用了CLIP编码器,可以采用攻击一组CLIP模型并利用攻击的可迁移性达到攻击VLM的效果,思路是将对抗描述和带有扰动的图像作为正样本对,将良性描述(用户描述)和图像作为负样本对,通过余弦损失使正样本对的距离拉近、负样本对的距离拉远,从而实现CLIP攻击。

    攻击目标分为Illusioning和Goal misdirection两类
    Agent分为VLM + captioner agent和VLM agent两类

    防御方式:

    • 不同组件之间的一致性检查【对于有captioner的VLM,实验表明VLM可以产生正确的caption,但是当Captioner产生的caption作为VLM输入的时候,VLM攻击成功率会大大提高,当不同组件间不一致时,可能存在被攻击风险】
    • 指令层次【对于易受攻击的组件,其产生的指令优先级应该低于难以受攻击的组件产生的指令,以此降低攻击成功率】
    • 对攻击表现和良性表现作基准测试
  2. 开会,汇报接口文档,下周完成接口设计

  3. 学习Docker基础知识
    视频地址
    笔记地址

  4. 总结
    返校第二天,开始有点难受了,晚上和npy打电话的时候疯狂抱怨这里太枯燥了,没有夜宵,没有娱乐,整天从早坐到晚,日复一日(呵呵,也才两天你就坚持不住了吗孩子)

2025-07-12

  1. 尝试复现《Adversarial Attacks on Multimodal Agents》代码,配置服务器环境,受阻

    • 想在服务器上复现 VPI 失败【困惑:如何获取Google Drive认证,如何在服务器启动Chrome,如何可视化agent的轨迹】,Windows本地和远程Linux服务器有所区别,项目跑不起来了

    • 服务器配置 Agent Attack 失败【似乎是某个依赖下载失败,和已有库冲突】

    • 一上午备受打击,感觉啥也没干就结束了
  2. 追剧《人生切割术》
    悬疑剧,高分美剧,雨天,无脑刷剧一下午

  3. 看了一部分《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》,这篇文章内容和《Adversarial Attacks on Multimodal Agents》相似度极高(一作为同一人),且代码仓库为同一个,明天计划看完这篇文章,并尝试跑agent-attack代码

  4. 总结
    今天有点摆烂了,下午爽了一下午,晚上也感觉没有动力,明天想去游泳,希望明天能更高效

2025-07-13

  1. 看了一篇论文《DISSECTING ADVERSARIAL ROBUSTNESS OF MULTIMODAL LM AGENTS》,这篇论文与《Adversarial Attacks on Multimodal Agents》思想及其相似,与第一篇不同的是引入了一种系统的方式评估Agent的鲁棒性【Agent Robustness Evaluation (ARE)】,将自主Agent的每一个组件作为节点,并用有向边表示中间输出如何在组件之间流动。

    同时本文也提出了两种不同的自主Agent框架:Evaluator+reflexion agent和Value function+tree search agent。

    本文在 VisualWebArena 环境中评估了多模态语言模型Agent的鲁棒性,重点在于理解不同组件如何在复合系统中协同工作。研究发现当前最先进的Agent,包括在反射和树搜索等高级框架中使用 GPT-4o 的agent,也极易受到黑盒攻击。ARE 框架使我们能够评估每个组件的鲁棒性,并追踪对抗鲁棒性如何在系统中传播。

  2. 尝试复现《Adversarial Attacks on Multimodal Agents》代码,我尝试从白盒攻击入手,今天在服务器上配好了环境,并理清了captioner attack部分的代码逻辑。实验遇到的问题和解决方式如下:

    • torch、torchvision、torchaudio版本问题【删除原有的torch,找到对应版本后重装】
    • 服务器访问hugging face超时【将模型下载到本地,修改模型导入方式和模型路径】
  3. 游泳
    哈哈哈,今天终于去游泳啦,在主校区的时候就想去,一直没有机会。今天和易老师一起去游泳,我表示我的心是热的,但是水是凉的。好冷啊~

  4. 总结
    从明天开始,实验室工作和小土堆学pytorch要同步进行,也算是繁忙工作中的调剂,也许交叉学习效率会更高呢。今天又是充实的一天,明天是一周的开始,抓紧在学校的时间,暑假好好学习,大干一场。


评论
avatar
Doraemon
你若盛开,清风自来
🛴前往小家...
公告
欢迎来到我的小窝☘️☘️☘️
主域名:
doraemonblogs.github.io 
备用域名:
doraemonqwq.cn