AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

Midjourney2yrs ago (2024)update lida

160 0 0

文章主题：AI图像生成器, DALL-E 2, Stable Diffusion, Midjourney

【本文作者：人工智能助手】随着AIGC的崛起，相信大家对于文生图工具DALL-E 2、Stable Diffusion和Midjourney已经有所了解。在本期的IDP Inspiration中，我们将带领大家深入探讨这三款工具的技术原理，让大家一窥其背后的秘密。

以下是译文，Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去几年中，人工智能（AI）领域取得了显著进步，其中涌现出了众多创新产品，AI图像生成器便是其中之一。这种设备具备将输入语句转化为图像的特性，使得文本与图像之间的转换变得轻松便捷。尽管市场上存在诸多文本转图像的AI工具，但DALL-E 2、Stable Diffusion和Midjourney仍然脱颖而出，成为了最为突出的三款产品。

01 DALL·E 2及其背后的技术

DALL-E 2，作为一款由OpenAI研发的先进技术，具备了文本描述生成图像的能力。该系统的训练基础是超过100亿个参数的GPT-3转化器模型，这一强大的模型能够深度理解自然语言输入，并据此生成与之匹配的图像。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

一幅描述篮球运动员灌篮的油画，具有星云爆炸的效果 – 图片由DALLE 2创作

DALL-E 2是一个复杂的系统，它主要分为两个关键部分。首先，该系统会将用户的输入转化为图像表示，也就是所谓的 Prior。其次，系统会将这种图像表示转化为实际的照片，也就是 Decoder。这两个步骤共同构成了 DALL-E 2 的核心原理。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

在本文中，我们采用了来自名为 CLIP 的另一个网络的文本和图像嵌入。这一技术是由 OpenAI 开发团队研发的。CLIP 是一个神经网络，针对图像输入能够生成最合适的标题。该网络的作用与 DALL-E 2 正好相反，DALL-E 2 是将文本转化为图像，而 CLIP 则是将图像转化为文本。引入 CLIP 的主要目的在于探索物体视觉和文字表述之间的内在联系。

CLIP – 为图像返回最佳的文本

DALL-E 2 的主要任务在于训练两种不同的模型。第一种模型名为 Prior，它负责接收文本标签作为输入，然后利用 CLIP 图像嵌入技术来生成相应的图像。第二种模型名为 Decoder，该模型接收 CLIP 图像嵌入作为输入，并最终生成图像。当这两种模型经过充分的训练之后，就可以进入推理阶段了。

输入的文本被转化为使用神经网络的CLIP文本嵌入。使用主成分分析（Principal Component Analysis）降低文本嵌入的维度。使用文本嵌入创建图像嵌入。进入Decoder步骤后，扩散模型被用来将图像嵌入转化为图像。图像被从64×64放大到256×256，最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型，其使用了CLIP ViT-L/14文本编码器，能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散（diffusion）”的过程——从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 – 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model（LDM）的，LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前，让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型（Diffusion Models, DM）是基于Transformer的生成模型，它采样一段数据（例如图像）并随着时间的推移逐渐增加噪声，直到数据无法被识别。该模型尝试将图像回退到原始形式，在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源，而且由于序列化评估(Sequential Evaluations)，推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性，Stable Diffusion将DM应用于强大的预训练自动编码器（Pre-trained Autoencoders）。

在这样的前提下训练扩散模型，使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点，显著提高视觉真实程度。在模型结构中引入交叉注意力层（cross attention layer），使扩散模型成为一个强大而灵活的生成器，实现基于卷积的高分辨率图像生成。