1.《AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?》

1.1 概述

Vision Language Models(VLMs)有优秀的泛化能力,然而VLMs在动态的现实场景中的鲁棒性仍未广泛探索。

本文提出了AdvDreamer,可以从图片的单一视角生成物理上可再生的对抗性3D转变换样本(Adv-3DT),实验表明在现实世界中的3D变种可能对模型在不同任务上的表现造成严重的威胁。

本文主要探究目前的VLMs对于处理来自真实世界中3D变种的分布变换是否具有充分的鲁棒性。

  • 提出一个新颖的框架AdvDreamer,从一张自然的图片生成现实世界中的Adv-3DT样本

  • 引入Naturalness Reward Model(NRM),在优化过程中维持样本的自然性,确保分布与现实世界中的图片一致,确保样本是物理上可再生的

  • Inverse Semantic Probability objective(ISP)保证Adv-3DT样本在不同的VLM架构和下游任务中的可转移性
  • Multimodal 3D Transformation VQA Benchmark(MM3DTBench),其中包含由 AdvDreamer 生成或从物理环境中复现的最具挑战性的 Adv-3DT 样本以及它们的物理上再生产物。

1.2 AdvDreamer框架

  • Step0:前景-背景对的准备阶段(Foreground-Background Pairs Preparation)

将输入的图片X分解成前景-背景对${X_f,X_b}$

采用Grounded-SAM将主要实例从语义上分割为前景$X_f$,然后进行基于扩散的修复以获得完整的背景$X_b$

此外,采用Stable-Diffusion直接生成前景-背景对来增强样本多样性

  • Step1:对抗性姿势操纵(Adversarial Pose Manipulation,AdvPM)

采用对抗姿态操纵器 (AdvPM) 将前景 $X_f$ 变换为一批 $X^,_f$,这些 $X^,_f$ 是在从当前 $p(\theta)$ 采样的 $\theta$ 下生成的

AdvPM 利用最先进的Large Reconstruction Model (LRM)TripoSR 提供的稳健先验知识,构建基于单视图的 3D 表示并应用采样变换

  • Step2:图像的重新合成

通过AnyDoor(一种基于扩散的合成模型)将变换后的前景$X^,_f$与背景合成

  • Step3:损失计算和分布优化

对于每个合成的样本 $X^,$,我们进一步计算其损失以指导对抗分布的更新

通过迭代执行第 1-3 阶段,AdvDreamer 收敛到最优分布 $p^(\theta)$,从 $p^(\theta)$中采样并应用生成过程可得到多样化的 Adv-3DT 样本

此外,分布中心对应于最坏情况的 Adv-3DT 样本

感觉这里涉及到很多我未知的领域,比如1)采用Ground-SAM将实例分割为前景,2)采用Stable-Diffusion直接合成前景-背景对,3)大型重建模型(Large Reconstruction Model,LRM)TripoSR 建立基于单一视角的3D表现,4)基于扩散的合成模型AnyDoor

但是我可以理解整个流程的大致意图,首先将自然图片分割成前景和背景对,然后通过平移、旋转和缩放变换前景,再将变换后的前景与背景融合,最后基于损失不断迭代优化得到最优分布,从最优分布中采样并应用于生成过程即可得到多样化的Adv-3DT样本,达到欺骗VLMs的目的

1.3 核心模块

1.3.1 Inverse Semantic Probability Objective

旨在最小化 VLMs 分配给 Adv-3DT 样本的真实语义属性的概率

  • 仅仅基于视觉编码器和文本编码器,它们是现代VLM架构的基础组成部分,这样可以确保AdvDreamer在VLM的架构不可知时也起作用

  • 在视觉-文本对齐空间操作而不是特定模型的层或特定任务的头,使得AdvDreamer具有任务泛化能力

1.3.2 Naturalness Reward Model

尽管生成模型提供了 3D 先验和逼真的图像效果,但直接优化 $L_{IPS}$ 通常会导致不自然的样本,例如形状扭曲和物理上不可信的情况

在优化过程中根据样本的自然性不断对 $p(\theta)$ 进行正则化,防止收敛到低质量的“伪最优”区域。

  • 利用 GPT-4o 创建了一个大规模训练集,通过自动标注 10 万个精心挑选的样本的自然度
    • 标注考虑两个标准:视觉真实度和物理可信度,每个标准均采用 5 分制进行量化
  • 使用 DINOv2 作为骨干网络,以提取稳健且丰富的视觉特征,然后使用双流预测头进行真实度和物理可信度评分

1.3.3 Query-Based Black-box Optimization

通常方法是计算损失函数相对于分布参数 $\mu$ 和 $\sum$ 的梯度,并通过梯度上升来更新它们。然而,由于前向过程涉及多个模型组件,这在梯度传播路径中引入了不确定性,使得利用梯度信息进行优化变得具有挑战性

因此,实验者采用了协方差矩阵自适应进化策略 (Covariance Matrix Adaptation Evolution Strategy,CMA-ES) ,这是一种高效的基于查询的黑盒优化器,核心算法如下

1.4 我的想法

本文讨论了视觉语言模型在真实世界3D变化中的鲁棒性问题。实验者全面评估揭示了现有 VLMs 存在严重的鲁棒性缺陷,凸显了在安全关键应用中增强 VLM 的 3D 变化感知和理解能力的迫切需求。

本文的创新在于1)对抗性攻击在计算机视觉中已有广泛研究,但大多数集中在2D扰动上,3D对抗攻击的研究相对较少,尤其是结合生成模型的方法。2)逆语义概率目标(ISP),通过攻击VLMs的视觉-文本对齐空间,而非特定的任务层,确保对抗性样本的跨模型和跨任务的泛化能力。3)自然性奖励模型(NRM),使对抗性样本在视觉上自然且物理上合理,避免模型向“伪最优”区域收敛。4)MM3DTBench ,建立标准化评估工具,为后续研究提供了统一的评估工具。

我对文中较多的方法和概念理解比较模糊,比如对抗性样本的生成方式TripoSR和Stable Diffusion,以及优化算法中CMA-ES优化策略,只对核心流程有大概把握,后续若需要运用再深入了解。

本文可拓展的地方有1)文章仅探究平移、旋转、缩放变换对VLMs的影响,未来可探索非刚性变换对VLMs的影响 2)是否可以通过对抗性训练来防御AdvDreamer的攻击

2.相关工作调研

2.1 任务要求

这周把这个文章学习下,围绕这篇文章调研一下什么是世界模型,有哪些种类

Dreamer是世界模型的一种,简单来讲就是一个大预测模型,可以基于你当前的内容预测下一秒中发生的事情,本质上是一种预测和生成模型,抽象上理解就是全知的, 上帝视角的模型,所以叫世界模型

2.2 工作进展

2.2.1 3D对抗攻击

AdvDreamer中没有看到对世界模型的定义和解释,文章重点在于视觉语言模型对3D对抗性变换样本的鲁棒性,于是我查找了与该文章相关的3D对抗攻击的工作

标题 会议/期刊 备注
《ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial Viewpoints》 NeurIPS 2022 这篇文章和AdvDreamer极其相似,都是探究现有的视觉模型对3D视角变换的鲁棒性问题。该文章提出ViewFool方法【AdvDreamer方法】,利用神经辐射场(NeRF)【前景-背景对】编码真实的物体,生成对抗性视角【基于扩散模型和LRM】,引入熵正则化缩小NeRF表示与真实物体之间的差距【ISP】【NRM自然反馈模型】,构建ImageNet-V数据集用于评估模型再视角变化下的鲁棒性【MM3DTBench】。结果表明对抗性视角具有跨模型迁移能力。
《Strike (with) a Pose: Neural Networks Are Easily Fooled by Strange Poses of Familiar Objects》 CVPR 2019 深度神经网络(DNNs)在固定测试集上表现优异,但在面对现实中的分布外(OoD)输入时,尤其是自然非对抗性的3D姿态变化时泛化能力不足。这篇文章提出了一个利用3D渲染器和3D模型来发现DNN故障的框架,并通过实验展示了DNN对姿态变化的脆弱性,以及对抗姿态在不同模型和数据集间的迁移性。

2.2.2 世界模型

信息来源 备注
World Models NIPS 2018 本文探索构建生成式神经网络模型,用于模拟强化学习环境,提升智能体训练效率与泛化能力【摘要】
https://www.nvidia.cn/glossary/world-models/ Nvidia官网给出对世界模型的定义,现实世界中世界基础模型的应用,世界模型的优势,以及构建世界模型的方法
https://worldmodels.github.io/ World Models可交互版的形式

定义

世界模型是理解现实世界动态 (包括其物理和空间属性) 的生成式 AI 模型。它们使用文本、图像、视频和运动等输入数据来生成视频。通过学习,它们能够理解现实世界环境的物理特性,从而对运动、应力以及感官数据中的空间关系等动态进行表示和预测。

世界模型本质上是一种环境动态的抽象表征系统,其核心功能在于通过有限观测数据构建可推理的潜在空间。通过整合文本、图像、视频等多模态输入数据,建立对物理空间属性和社会交互规律的深度学习

我的理解,世界模型从多模态输入中理解现实世界环境的物理特性,从而做出相关的表示和预测。世界模型是理解环境动态与支持智能决策的AI模型,能够模拟现实世界物理规律与社会交互的认知架构。

分类

deepseek根据功能和技术,将世界模型分为以下两类:

  • 基于内部表征的世界模型

构建对当前世界状态的抽象理解,形成环境动态的隐式表征。

通常结合变分自编码器(VAE)、循环神经网络(RNN)等架构,将高维观测数据压缩为低维潜变量,用于后续决策。

  • 基于未来预测的世界模型

预测环境未来状态的变化,指导实时决策。

侧重于生成未来场景的逼真模拟,如OpenAI的Sora模型可生成遵循物理规律的视频,特斯拉的通用世界模型能预测车辆轨迹。

gpt4o根据建模目标、结构特征、训练方法将世界模型分类如下

  • 建模目标视角:生成式 vs 判别式

    生成式世界模型旨在学习环境的完整动力学分布,即预测下一个观测(或状态)的概率分布,通过重构或生成未来帧来模拟环境演

    判别式世界模型只学习与规划决策最相关的输出,而不生成完整观测

  • 结构特征:显式模型 vs 隐式模型。

    显式世界模型指模型结构中明确存在环境预测组件,能生成完整观测或状态序列

    隐式世界模型则没有独立的环境模拟器,而是将环境信息隐含在模型参数或智能体状态中

    显式建模先明确构建环境动态模型,再用其进行规划。

    隐式模型更多见于一些基于记忆的策略网络,它们通过内在记忆或网络结构捕获环境规律,但不显式输出状态预测。

  • 训练方式:监督学习 vs 无监督学习 vs 强化学习结合

    在实际应用中,世界模型常通过无监督或自监督方式训练环境动态,部分工作也会将世界模型训练与强化学习目标结合

    Dreamer等方法则在生成模型学习的基础上,通过策略或价值模型在潜在空间中优化行为。

    监督学习少见于环境建模领域,除非能获得真实的状态转移标签。总体来看,现代世界模型多采用无监督学习或自监督学习来学习环境表示,并结合强化学习来训练决策模块,以实现高效智能体训练。

我的想法

感觉调研的过程比读论文的过程更加困难,上面的调研缺乏对世界模型架构的认知,没有涉及世界模型的组成、如何训练世界模型、世界模型在现实世界的应用等更广泛的问题,且上述调研工作依赖于perplexity、gpt4o、deepseek等模型提供方向,深度和广度都有所欠缺。

对于一个全新领域的调研工作,应该从何开始着手,如何深入挖掘等问题仍待解决。