AdvDreamer

1.《AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?》

1.1 概述

Vision Language Models(VLMs)有优秀的泛化能力，然而VLMs在动态的现实场景中的鲁棒性仍未广泛探索。

本文提出了AdvDreamer，可以从图片的单一视角生成物理上可再生的对抗性3D转变换样本（Adv-3DT），实验表明在现实世界中的3D变种可能对模型在不同任务上的表现造成严重的威胁。

本文主要探究目前的VLMs对于处理来自真实世界中3D变种的分布变换是否具有充分的鲁棒性。

提出一个新颖的框架AdvDreamer，从一张自然的图片生成现实世界中的Adv-3DT样本
引入Naturalness Reward Model（NRM），在优化过程中维持样本的自然性，确保分布与现实世界中的图片一致，确保样本是物理上可再生的
Inverse Semantic Probability objective（ISP）保证Adv-3DT样本在不同的VLM架构和下游任务中的可转移性
Multimodal 3D Transformation VQA Benchmark（MM3DTBench），其中包含由 AdvDreamer 生成或从物理环境中复现的最具挑战性的 Adv-3DT 样本以及它们的物理上再生产物。

1.2 AdvDreamer框架

Step0:前景-背景对的准备阶段（Foreground-Background Pairs Preparation）

将输入的图片X分解成前景-背景对${X_f,X_b}$

采用Grounded-SAM将主要实例从语义上分割为前景$X_f$,然后进行基于扩散的修复以获得完整的背景$X_b$

此外，采用Stable-Diffusion直接生成前景-背景对来增强样本多样性

Step1:对抗性姿势操纵（Adversarial Pose Manipulation，AdvPM）

采用对抗姿态操纵器 (AdvPM) 将前景 $X_f$ 变换为一批 $X^,_f$，这些 $X^,_f$ 是在从当前 $p(\theta)$ 采样的 $\theta$ 下生成的

AdvPM 利用最先进的Large Reconstruction Model (LRM) ，TripoSR 提供的稳健先验知识，构建基于单视图的 3D 表示并应用采样变换

Step2:图像的重新合成

通过AnyDoor（一种基于扩散的合成模型）将变换后的前景$X^,_f$与背景合成

Step3:损失计算和分布优化

对于每个合成的样本 $X^,$，我们进一步计算其损失以指导对抗分布的更新

通过迭代执行第 1-3 阶段，AdvDreamer 收敛到最优分布 $p^(\theta)$，从 $p^(\theta)$中采样并应用生成过程可得到多样化的 Adv-3DT 样本

此外，分布中心对应于最坏情况的 Adv-3DT 样本

感觉这里涉及到很多我未知的领域，比如1）采用Ground-SAM将实例分割为前景，2）采用Stable-Diffusion直接合成前景-背景对，3）大型重建模型（Large Reconstruction Model，LRM）TripoSR 建立基于单一视角的3D表现，4）基于扩散的合成模型AnyDoor

但是我可以理解整个流程的大致意图，首先将自然图片分割成前景和背景对，然后通过平移、旋转和缩放变换前景，再将变换后的前景与背景融合，最后基于损失不断迭代优化得到最优分布，从最优分布中采样并应用于生成过程即可得到多样化的Adv-3DT样本，达到欺骗VLMs的目的

1.3 核心模块

1.3.1 Inverse Semantic Probability Objective

旨在最小化 VLMs 分配给 Adv-3DT 样本的真实语义属性的概率

仅仅基于视觉编码器和文本编码器，它们是现代VLM架构的基础组成部分，这样可以确保AdvDreamer在VLM的架构不可知时也起作用
在视觉-文本对齐空间操作而不是特定模型的层或特定任务的头，使得AdvDreamer具有任务泛化能力

1.3.2 Naturalness Reward Model

尽管生成模型提供了 3D 先验和逼真的图像效果，但直接优化 $L_{IPS}$ 通常会导致不自然的样本，例如形状扭曲和物理上不可信的情况

在优化过程中根据样本的自然性不断对 $p(\theta)$ 进行正则化，防止收敛到低质量的“伪最优”区域。

利用 GPT-4o 创建了一个大规模训练集，通过自动标注 10 万个精心挑选的样本的自然度
- 标注考虑两个标准：视觉真实度和物理可信度，每个标准均采用 5 分制进行量化
使用 DINOv2 作为骨干网络，以提取稳健且丰富的视觉特征，然后使用双流预测头进行真实度和物理可信度评分

1.3.3 Query-Based Black-box Optimization

通常方法是计算损失函数相对于分布参数 $\mu$ 和 $\sum$ 的梯度，并通过梯度上升来更新它们。然而，由于前向过程涉及多个模型组件，这在梯度传播路径中引入了不确定性，使得利用梯度信息进行优化变得具有挑战性

因此，实验者采用了协方差矩阵自适应进化策略 (Covariance Matrix Adaptation Evolution Strategy，CMA-ES) ，这是一种高效的基于查询的黑盒优化器，核心算法如下

1.4 我的想法

本文讨论了视觉语言模型在真实世界3D变化中的鲁棒性问题。实验者全面评估揭示了现有 VLMs 存在严重的鲁棒性缺陷，凸显了在安全关键应用中增强 VLM 的 3D 变化感知和理解能力的迫切需求。

本文的创新在于1）对抗性攻击在计算机视觉中已有广泛研究，但大多数集中在2D扰动上，3D对抗攻击的研究相对较少，尤其是结合生成模型的方法。2）逆语义概率目标（ISP），通过攻击VLMs的视觉-文本对齐空间，而非特定的任务层，确保对抗性样本的跨模型和跨任务的泛化能力。3）自然性奖励模型（NRM），使对抗性样本在视觉上自然且物理上合理，避免模型向“伪最优”区域收敛。4）MM3DTBench ，建立标准化评估工具，为后续研究提供了统一的评估工具。

我对文中较多的方法和概念理解比较模糊，比如对抗性样本的生成方式TripoSR和Stable Diffusion，以及优化算法中CMA-ES优化策略，只对核心流程有大概把握，后续若需要运用再深入了解。

本文可拓展的地方有1）文章仅探究平移、旋转、缩放变换对VLMs的影响，未来可探索非刚性变换对VLMs的影响 2）是否可以通过对抗性训练来防御AdvDreamer的攻击

2.相关工作调研

2.1 任务要求

这周把这个文章学习下，围绕这篇文章调研一下什么是世界模型，有哪些种类

Dreamer是世界模型的一种，简单来讲就是一个大预测模型，可以基于你当前的内容预测下一秒中发生的事情，本质上是一种预测和生成模型，抽象上理解就是全知的，上帝视角的模型，所以叫世界模型

2.2 工作进展

2.2.1 3D对抗攻击

AdvDreamer中没有看到对世界模型的定义和解释，文章重点在于视觉语言模型对3D对抗性变换样本的鲁棒性，于是我查找了与该文章相关的3D对抗攻击的工作

标题	会议/期刊	备注
《ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints》	NeurIPS 2022	这篇文章和AdvDreamer极其相似，都是探究现有的视觉模型对3D视角变换的鲁棒性问题。该文章提出ViewFool方法【AdvDreamer方法】，利用神经辐射场（NeRF）【前景-背景对】编码真实的物体，生成对抗性视角【基于扩散模型和LRM】，引入熵正则化缩小NeRF表示与真实物体之间的差距【ISP】【NRM自然反馈模型】，构建ImageNet-V数据集用于评估模型再视角变化下的鲁棒性【MM3DTBench】。结果表明对抗性视角具有跨模型迁移能力。
《Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects》	CVPR 2019	深度神经网络（DNNs）在固定测试集上表现优异，但在面对现实中的分布外（OoD）输入时，尤其是自然非对抗性的3D姿态变化时泛化能力不足。这篇文章提出了一个利用3D渲染器和3D模型来发现DNN故障的框架，并通过实验展示了DNN对姿态变化的脆弱性，以及对抗姿态在不同模型和数据集间的迁移性。

2.2.2 世界模型

信息来源	备注
World Models	NIPS 2018 本文探索构建生成式神经网络模型，用于模拟强化学习环境，提升智能体训练效率与泛化能力【摘要】
https://www.nvidia.cn/glossary/world-models/	Nvidia官网给出对世界模型的定义，现实世界中世界基础模型的应用，世界模型的优势，以及构建世界模型的方法
https://worldmodels.github.io/	World Models可交互版的形式

定义

世界模型是理解现实世界动态 (包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习，它们能够理解现实世界环境的物理特性，从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。

世界模型本质上是一种环境动态的抽象表征系统，其核心功能在于通过有限观测数据构建可推理的潜在空间。通过整合文本、图像、视频等多模态输入数据，建立对物理空间属性和社会交互规律的深度学习

我的理解，世界模型从多模态输入中理解现实世界环境的物理特性，从而做出相关的表示和预测。世界模型是理解环境动态与支持智能决策的AI模型，能够模拟现实世界物理规律与社会交互的认知架构。

我的想法

感觉调研的过程比读论文的过程更加困难，上面的调研缺乏对世界模型架构的认知，没有涉及世界模型的组成、如何训练世界模型、世界模型在现实世界的应用等更广泛的问题，且上述调研工作依赖于perplexity、gpt4o、deepseek等模型提供方向，深度和广度都有所欠缺。

对于一个全新领域的调研工作，应该从何开始着手，如何深入挖掘等问题仍待解决。