A Comprehensive Survey of World Models
1.《Understanding World or Predicting Future? A Comprehensive Survey of World Models》这是一篇关于世界模型的综述,提出一种关于世界模型的系统性分类:理解世界、预测未来。本文首先强调世界模型在1)构建内部表征以理解世界的机制2)预测未来状态以模拟和指导决策两种分类的现态,然后探索世界模型在关键领域的应用,包括自动驾驶、机器人技术、社会模拟等,最后指出关键挑战并提供未来可能的研究方向的分析。 1.1...
World Models
1.《World Models》传统强化学习中,智能体通常通过试错与环境交互来学习策略。然而,这种方法面临高维输入处理和信用分配(Credit Assignment)两大难题。 本文提出构建世界模型,通过无监督学习压缩环境的时空特征,使智能体能在“梦境”(dream,我的理解是模型生成的虚拟场景)中训练,从而降低对真实环境的依赖。 通过将世界模型中提取的特征作为Agent的输入,训练出一个策略来解决所需的任务。甚至可以完全在由其世界模型生成的虚拟场景中训练Agent,并将该策略迁移回实际环境。 1.1 模型框架 本文提出一个智能体框架,该智能体包括视觉感知组件(Vison Model),记忆组件(Memory Model)和决策组件(Controller Model) VAE Model(V) 视觉组件是由变分自动编码器(Variational Autoencoder)构成,可以将输入的图像压缩成潜在向量$z_t$ MDN-RNN Model (M) 记忆组件是由具有混合密度网络(Mixture Density...
LLama微调
1.LLama微调 准备数据集 导入数据集,调整训练参数 指令预览 模型设置,进程数,微调方式,数据集,学习率,批次大小等 开始训练,训练过程 损失呈现,模型保存路径 载入训练好的模型权重 效果演示 2.设计思路 3.知识库搭建 本地知识库 AnythingLLM + 本地模型/API Langchain+ChatGLM Cherry Studio + API 以上方式我均尝试过,其实效果不太理想,原因是本地跑LLama模型推理速度太慢,嵌入模型和LLM推理能力不够 云知识库 Dify Coze 智谱清言 Cloudflare云知识库 CloudRAG
AdvDreamer
1.《AdvDreamer Unveils: Are Vision-Language Models Truly Ready for Real-World 3D Variations?》1.1 概述Vision Language Models(VLMs)有优秀的泛化能力,然而VLMs在动态的现实场景中的鲁棒性仍未广泛探索。 本文提出了AdvDreamer,可以从图片的单一视角生成物理上可再生的对抗性3D转变换样本(Adv-3DT),实验表明在现实世界中的3D变种可能对模型在不同任务上的表现造成严重的威胁。 本文主要探究目前的VLMs对于处理来自真实世界中3D变种的分布变换是否具有充分的鲁棒性。 提出一个新颖的框架AdvDreamer,从一张自然的图片生成现实世界中的Adv-3DT样本 引入Naturalness Reward Model(NRM),在优化过程中维持样本的自然性,确保分布与现实世界中的图片一致,确保样本是物理上可再生的 Inverse Semantic Probability...





