AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

Midjourney9mos agoupdate lida
101 0 0

文章主题:AI图像生成器, DALL-E 2, Stable Diffusion, Midjourney

666ChatGPT办公新姿势,助力做AI时代先行者!

【本文作者:人工智能助手】随着AIGC的崛起,相信大家对于文生图工具DALL-E 2、Stable Diffusion和Midjourney已经有所了解。在本期的IDP Inspiration中,我们将带领大家深入探讨这三款工具的技术原理,让大家一窥其背后的秘密。

以下是译文,Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去几年中,人工智能(AI)领域取得了显著进步,其中涌现出了众多创新产品,AI图像生成器便是其中之一。这种设备具备将输入语句转化为图像的特性,使得文本与图像之间的转换变得轻松便捷。尽管市场上存在诸多文本转图像的AI工具,但DALL-E 2、Stable Diffusion和Midjourney仍然脱颖而出,成为了最为突出的三款产品。

01 DALL·E 2及其背后的技术

DALL-E 2,作为一款由OpenAI研发的先进技术,具备了文本描述生成图像的能力。该系统的训练基础是超过100亿个参数的GPT-3转化器模型,这一强大的模型能够深度理解自然语言输入,并据此生成与之匹配的图像。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

一幅描述篮球运动员灌篮的油画,具有星云爆炸的效果 – 图片由DALLE 2创作

DALL-E 2是一个复杂的系统,它主要分为两个关键部分。首先,该系统会将用户的输入转化为图像表示,也就是所谓的 Prior。其次,系统会将这种图像表示转化为实际的照片,也就是 Decoder。这两个步骤共同构成了 DALL-E 2 的核心原理。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

在本文中,我们采用了来自名为 CLIP 的另一个网络的文本和图像嵌入。这一技术是由 OpenAI 开发团队研发的。CLIP 是一个神经网络,针对图像输入能够生成最合适的标题。该网络的作用与 DALL-E 2 正好相反,DALL-E 2 是将文本转化为图像,而 CLIP 则是将图像转化为文本。引入 CLIP 的主要目的在于探索物体视觉和文字表述之间的内在联系。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

CLIP – 为图像返回最佳的文本

DALL-E 2 的主要任务在于训练两种不同的模型。第一种模型名为 Prior,它负责接收文本标签作为输入,然后利用 CLIP 图像嵌入技术来生成相应的图像。第二种模型名为 Decoder,该模型接收 CLIP 图像嵌入作为输入,并最终生成图像。当这两种模型经过充分的训练之后,就可以进入推理阶段了。

输入的文本被转化为使用神经网络的CLIP文本嵌入。使用主成分分析(Principal Component Analysis)降低文本嵌入的维度。使用文本嵌入创建图像嵌入。进入Decoder步骤后,扩散模型被用来将图像嵌入转化为图像。图像被从64×64放大到256×256,最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型,其使用了CLIP ViT-L/14文本编码器,能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散 (diffusion)”的过程——从有噪声的情况开始,逐渐改善图像,直到完全没有噪声,逐步接近所提供的文本描述。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 – 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model(LDM)的,LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前,让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型(Diffusion Models, DM)是基于Transformer的生成模型,它采样一段数据(例如图像)并随着时间的推移逐渐增加噪声,直到数据无法被识别。该模型尝试将图像回退到原始形式,在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源,而且由于序列化评估(Sequential Evaluations),推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性,Stable Diffusion将DM应用于强大的预训练自动编码器(Pre-trained Autoencoders)。

在这样的前提下训练扩散模型,使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点,显著提高视觉真实程度。在模型结构中引入交叉注意力层(cross attention layer),使扩散模型成为一个强大而灵活的生成器,实现基于卷积的高分辨率图像生成。

03 Midjourney及其是如何工作的

Midjourney也是一款由人工智能驱动的工具,其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格,创造出用户想要的任何效果组合的图像。它擅长环境效果,特别是幻想和科幻场景,看起来就像游戏的艺术效果。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

夜晚的云端城堡,电影般的画面 – 图片由Midjourney生成

Midjourney也是一个人工智能图像生成工具,它通过输入文本和参数,并使用在大量图像数据上训练出的机器学习(ML)算法来生成独一无二的图像。

Midjourney目前只能通过其官方Discord上的Discord机器人使用。用户使用“/imagine”命令生成图像,并像其他AI图像生成工具一样输入命令提示。然后机器人会返回一张图片。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

04. DALL·E 2, Stable Diffusion 和 Midjourney之间的比较

DALL-E 2使用数以百万计的图片数据进行训练,其输出结果更加成熟,非常适合企业使用。当有两个以上的人物出现时,DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

而Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求,几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片,它似乎更像一幅画。

Stable Diffusion 是一个开源的模型,人人都可以使用。它对当代艺术图像有比较好的理解,可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

下面的prompt有助于了解每种模型的相似性和差异。

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究
AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究
AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究
AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究
AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

END

点点『在看』,科普火爆的文生图工具背后的技。

参考资料

https://medium.com/mlearning-ai/dall-e2-vs-stable-diffusion-same-prompt-different-results-e795c84adc56https://medium.com/geekculture/what-is-dalle-2-what-to-know-before-trying-the-groundbreaking-ai-e7a585f2edf0https://stability.ai/blog/stable-diffusion-public-releasehttps://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/https://medium.com/nightcafe-creator/stable-diffusion-tutorial-how-to-use-stable-diffusion-157785632eb3https://interestingengineering.com/innovation/stability-ai-uses-latent-diffusion-models-to-allow-users-to-create-art-in-stable-diffusionhttps://medium.com/augmented-startups/how-does-dall-e-2-work-e6d492a2667fhttps://medium.com/codex/a-quick-look-under-the-hood-of-stable-diffusion-open-source-architecture-2f07fc1e729https://stepico.com/blog/midjourney-as-an-artificial-intelligence-system/https://www.dexerto.com/entertainment/what-is-midjourney-new-ai-image-generator-rivals-dall-e-1864522/https://petapixel.com/2022/08/22/ai-image-generators-compared-side-by-side-reveals-stark-differences/https://analyticsindiamag.com/stable-diffusion-vs-midjourney-vs-dall-e2/https://medium.com/mlearning-ai/dall-e-2-vs-midjourney-vs-stable-diffusion-8eb9eb7d20be

AI图像生成器DALL-E2、StableDiffusion和Midjourney的技术原理探究

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

© Copyright notes

Related posts

No comments

No comments...