“ 视觉AIGC元年:技术大爆炸!Dalle-3、Sora、Stable Diffusion 3 掀起AIGC新浪潮,究竟有哪些模块值得借鉴! ”

发布时间:2024-03-21
今日阅读:0
来源:CSDN
作者:AI记忆
...

img img

一、Dalle-3

论文题目Improving Image Generation with Better Captions,https://cdn.openai.com/papers/dall-e-3.pdf 体验入口Bing AI - 搜索,https://cn.bing.com/create 发布时间2023.9

亮点

1.精细化caption

论文着重宣传部分。caption生成模块使用了CLIPContrastive Language-Image Pretraining图像编码器和GPT语言模型GPT-4,可为每张图像生成细致的文字描述。以下是用GPT-4生成更加精细化caption的例子img

2.LDM diffusion

图像生成模块先用VAE将高分辨率图像压缩为低维向量,降低学习难度,然后使用T5 Transformer将文本编码为向量,并通过GroupNorm层将其注入LDM diffusion模型而且像素级diffusion,指导图像生成方向。与SDXL类似在潜空间进行diffusion是DALL-E 3比前两代生成的图片质量更好的核心原因之一。 img img

二、Sora

论文题目Video generation models as world simulators,https://openai.com/research/video-generation-models-as-world-simulators 体验入口Video generation models as world simulators 发布时间2024.2.15

亮点

1.visual patch

Sora将视频数据转换成Transformer大模型可以使用的tokens。这个过程涉及到将视频中的多帧图像进行深度学习压缩,并加上第三维的时间信息,形成patches。这些patches作为tokens,可以应用于Transformer模型中。这种数据转换方式使得Sora能够处理和理解视频数据,为后续的视频生成和处理打下基础。 img

2.diffusion transformerDiTs

Sora运用扩散模型来处理视频生成的连续性和细节刻画问题,而Transformer则用于理解并整合复杂的时空上下文信息。通过这样的组合方式,Sora能够高效且创造性地生成高质量的视频内容。具体来讲,使用Transformers替换扩散模型中U-Net主干网络,分析发现,这种Diffusion TransformersDiTs不仅速度更快更高的Gflops,而且在ImageNet 512512和256256的类别条件图片生成任务上,取得了更好的效果,256256上实现了SOTA的FID指标2.27。DiTs论文Scalable Diffusion Models with Transformers,https://arxiv.org/abs/2212.09748。 img 其中DiTs结构如下 img

三、SD-3

论文题目Scaling Rectified Flow Transformers for High-Resolution Image Synthesis,https://arxiv.org/pdf/2403.03206.pdf 体验入口https://stability.ai/stablediffusion3 发布时间2024.02.22 img 该图表以 SD3 为基准,基于人类偏好评估,展示了 SD3 在视觉美学、提示遵循和排版等方面相对于其他竞争模型的优势。

亮点

1.diffusion transformerDiTs

与Sora类似用Latent Diffusion TransformerDiTs 换掉扩散模型中的 U-Net 结构。SD 3架构图如下所示 img 具体来讲,多模态扩散是基座,该架构是建立在 DiT基础上。原始DiT 只考虑类别条件下的图像生成,并使用调制机制来对扩散过程的时间步和类别标签进行条件约束。MM-DiT有如下特点。 1、输入侧简单文本特征+timestep,丰富文本特征,带噪latent特征+位置编码。 2、多模态DiT如图 2b 所示,为文本和图像两种模态使用两组独立的权重,然后将两种模态转化后的特征连接起来进行attention后继续分拆出来文本与图像分支,如此嵌套。最终达到文本控制的最大化。

2.Flow Matching

Flow Matching是一个新的生成模型框架,这项研究为基于连续归一化流CNF的生成建模引入了一种新范式,实现了以前所未有的规模训练 CNF。这个框架不依赖复杂的模拟或对数似然估计,而是直接处理生成目标概率路径的向量场。简单来说,Flow Matching给我们提供了一张地图向量场和一条路线概率路径,让我们能够更清晰地了解数据是如何生成的。通过这张地图和路线,我们可以更轻松地训练生成模型,让它学习从噪声中生成出我们想要的数据。Flow Matching还提出了一个叫做条件Flow Matching (CFM)的损失函数,这个函数让模型的训练变得更容易。同时,它还支持各种概率路径,包括diffusion路径和OT路径,这让我们在训练模型时有了更多的选择。使用 Flow Matching 技术的意义则在于提升采样效率。Flow Matching论文Flow Matching for Generative Modeling,https://arxiv.org/pdf/2210.02747.pdf。 img img 图2和图6是Flow Matching对比diffusion和OT示意图

每日一言

""付出就会有回报,比如一倍的奢望,换两倍的失望。""

...

站点统计

本周更新文章: 0 篇
文章总数: 59110 篇
今日访问量: 53143 次
访问总量: 147300 次