Stable Diffusion 3:研究论文

原文:https://stability.ai/news/stable-diffusion-3-research-paper

以下为原文翻译:

主要观点:

  • 今天,我们发布了一篇研究论文,深入探讨了支持稳定扩散3的基础技术。
  • 稳定扩散3在排版和提示遵循方面表现优于DALL·E 3、Midjourney v6和Ideogram v1等最先进的文本到图像生成系统,这是基于人类偏好评估的。
  • 我们的新多模态扩散变压器(MMDiT)架构使用了图像和语言表示的分开权重集合,相比于之前的SD3版本,这提高了文本理解和拼写能力。

根据我们发布的 Stable Diffusion 3 早期预览公告,今天我们发布了概述即将发布的模型技术细节的研究论文。该论文将很快在 arXiv 上公开,我们邀请您加入等待名单,参与早期预览。

性能

我们已经将稳定扩散3的输出图像与其他各种开放模型进行了比较,包括SDXL、SDXL Turbo、稳定级联、Playground v2.5和Pixart-α,以及DALL·E 3、Midjourney v6和Ideogram v1等闭源系统,以评估基于人类反馈的性能。在这些测试中,人类评估员被提供了每个模型的示例输出,并被要求根据模型输出如何紧随给定提示的上下文(“提示跟随”),根据提示渲染文本的效果(“排版”)以及哪个图像具有更高审美质量(“视觉美学”)来选择最佳结果。

根据我们的测试结果,我们发现稳定扩散3在所有上述领域中要么与当前最先进的文本到图像生成系统相当,要么表现更好。

在消费级硬件上进行早期未经优化的推理测试时,我们最大的SD3模型具有8B参数,适配RTX 4090的24GB VRAM,并在使用50个采样步骤时,生成分辨率为1024×1024的图像需要34秒。此外,在初始发布期间将会有多个稳定扩散3的变体,从800m到8B参数模型,以进一步消除硬件障碍。

建筑细节

对于文本到图像生成,我们的模型必须考虑文本和图像两种模态。这就是为什么我们将这种新架构称为MMDiT,指的是其处理多种模态的能力。与之前的稳定扩散版本一样,我们使用预训练模型来得出适当的文本和图像表示。具体来说,我们使用三种不同的文本嵌入器 – 两个CLIP模型和T5 – 来编码文本表示,以及一个改进的自动编码模型来编码图像标记。

SD3架构是基于扩散变压器(“DiT”,Peebles & Xie, 2023)构建的。由于文本和图像嵌入在概念上是非常不同的,我们为两种模态使用两组独立的权重。如上图所示,这相当于为每种模态拥有两个独立的变压器,但将两种模态的序列连接起来进行注意力操作,使得两种表示可以在各自的空间中工作,同时考虑另一种模态。

通过使用这种方法,允许信息在图像和文本标记之间流动,以提高生成的输出中的整体理解和排版。这种架构也可以轻松扩展到多种形式,比如视频,正如我们在论文中讨论的那样。

由于稳定扩散3的改进提示跟随,我们的模型能够创造专注于各种不同主题和特质的图像,同时在图像风格上保持高度灵活。

通过重新加权改进矫正流

稳定扩散3采用了一个修正流(RF)公式(Liu等,2022年;Albergo和Vanden-Eijnden,2022年;Lipman等,2023年),在训练过程中,数据和噪声在线性轨迹上相互连接。这导致推理路径更直,从而允许更少的步骤进行采样。此外,我们在训练过程中引入了一种新颖的轨迹采样计划。这个计划更加重视轨迹的中间部分,因为我们假设这些部分会导致更具挑战性的预测任务。我们将我们的方法与其他60种扩散轨迹(如LDM、EDM和ADM)进行了对比,使用多个数据集、指标和采样器设置进行比较。结果表明,虽然先前的RF公式在少步采样制度中表现出改进的性能,但随着步数的增加,它们的相对性能下降。相反,我们重新加权的RF变体始终提高了性能。

缩放矫正流变压器模型

我们使用我们重新加权的Rectified Flow公式和MMDiT骨干进行文本到图像合成的规模研究。我们训练的模型范围从15个块、4.5亿参数到38个块、80亿参数,并观察到验证损失随着模型大小和训练步骤的增加而平稳下降(顶部行)。为了测试这是否转化为模型输出的有意义改进,我们还评估了自动图像对齐指标(GenEval)以及人类偏好分数(ELO)(底部行)。我们的结果表明这些指标与验证损失之间存在强烈相关性,表明后者是整体模型性能的强有力预测因素。此外,规模化趋势没有出现饱和迹象,这让我们对未来能够继续提高模型性能感到乐观。

灵活文本编码器

通过移除内存密集型的4.7B参数T5文本编码器,SD3的内存需求可以显著减少,只会有轻微的性能损失。移除这个文本编码器不会影响视觉美感(无T5时的胜率:50%),只会导致文本粘附度稍微降低(胜率46%),如上图所示在“性能”部分。然而,我们建议在生成书面文本时包含T5,因为我们观察到在没有T5的情况下,排版生成的性能下降更大(胜率38%),如下面的例子所示:

解读

稳定扩散3(Stable Diffusion 3)的主要研究成果、架构特点、性能比较、以及与前代版本的改进之处。现在,尝试围绕“稳定扩散3”的关键知识点提出并解答三个关键问题:其来源、其本质以及其发展。

1.它从哪里来?

━━━━━━━━━━━━━━━━━━

稳定扩散3是基于深度学习和人工智能技术发展的一个里程碑,它是为了解决文本到图像生成问题而设计的。在稳定扩散3之前,已有多代文本到图像的生成模型,如DALL·E、Midjourney等。这些模型虽然已经能够根据文本提示生成相应的图像,但在某些方面如排版、提示遵循以及多模态理解方面仍有提升空间。稳定扩散3的出现,是在前代技术基础上,通过引入新的多模态扩散变压器(MMDiT)架构和改进的训练方法,旨在提升模型的文本理解能力和生成图像的质量。

2.它是什么?

━━━━━━━━━━━━━━━━━━

稳定扩散3是一个利用深度学习进行文本到图像转换的生成模型。它通过新的多模态扩散变压器(MMDiT)架构,分别处理图像和语言的表示,从而提高了文本理解和拼写能力。其核心原则包括:

  • 多模态理解:通过分开处理图像和文本的表示,提高了模型对不同类型数据的处理能力。
  • 改进的训练方法:引入改进的矫正流(RF)公式和新颖的轨迹采样计划,使模型生成路径更直,提高了采样效率。
  • 可扩展性:架构设计考虑到未来的拓展性,比如将来可能的视频生成等多种形式。

现实案例:在实际应用中,稳定扩散3能够根据文本提示生成高质量的图像,无论是细节丰富的风景画还是复杂的场景描绘,都能精准地遵循给定的描述,并且在风格和细节上具有较高的灵活性和创造性。

3.它到哪里去?

━━━━━━━━━━━━━━━━━━

  • 局限性:尽管稳定扩散3在多个方面取得了显著进步,但任何技术都有其局限性,比如在处理极其复杂的文本提示或极端情况下的图像生成可能仍然面临挑战。
  • 优化方向:当前行业正专注于进一步提升模型的生成效率、减少对计算资源的需求,以及提高模型对文本的理解深度和生成图像的多样性。
  • 未来发展:未来的发展方向可能包括更深层次的跨模态融合、生成内容的真实性和准确性的进一步提升,以及模型应用范围的拓展,如从图像生成拓展到视频生成等新领域。


评论

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注