Midjourneyv6：超越人类的智能艺术创作

Midjourney2yrs ago (2024)update lida

196 0 0

文章主题：腾讯科技, Midjourney, v6, 文生图模型

文 / 腾讯科技郝博阳

在12月21日这个特殊的日子里，Midjourney在Discord平台上正式推出了他们最新的测试版v6。这款模型经过长达9个月的精心训练，虽然目前还没有明确的基准比较数据，但从网上的用户反馈来看，它无疑已经成为当前最为先进的人工智能助手。这次发布的模型不仅令设计领域感受到了压力，甚至直接影响了摄影行业的发展。

（先来点真实性震撼 )

Midjourney 历代全家福：

从官方 Discord 介绍上看，这一次 Midjourney 的模型提升主要在以下几个方面：

1）更准确的提示遵循以及更长的提示词上下文长度。

在经过实际测试后，我们的用户反馈称，V6 版本的提示词长度已经超过了 350 个字符。此外，当前版本允许用户在提示中选择多个主题/颜色以及其他细节，提供了更为丰富的定制选项。

在准确遵循提示这点上，从网友测试来看提升也很明显。

比如当用法语测试时，v6 模型生成的图像明显更符合提示词的具体语义：有拳击手套，面带一点微笑。

下面这个例子更明显，v5.2 数不到 1000。

动作理解的提升：v5.2 理解不了躺着，想再爬起来卷。v6 就彻底躺平了。

2）改进的连贯性和模型知识

在公告中，Midjourney 表示

● v6 对提示现在更敏感。别再用像 ” 令人印象深刻的，逼真的，4k，8k” 这样的无用词汇了。

在撰写文章时，我们需要清晰地传达我们的观点和信息，这样才能使读者更好地理解我们的意图。尽管这样做可能使得文章显得 less有趣，但是通过明确表达，我们可以更有效地传达信息，从而让读者更深入地理解我们的观点。因此，尽管有时候我们需要放弃一些有趣的细节，但是明确表达我们的想法和信息始终是至关重要的。

V6版本的用户测试表明，该系统对于标点和语法细节有了更深入的理解。这个升级将对用户体验带来显著的影响。曾经，倾向于使用粗暴提示词的新手可能会被更为精细的描述所替代。至于这是提高了还是降低了新手入門门槛，这个问题并不好回答。

在面对这一变化时，一位富有设计经验的设计师为Midjourney提出了一个全新的建议：关键在于保持简洁、不炫耀技巧以及具备结构化的表达方式。

在模型知识领域，V6的进化和一个细微之处具有很高的代表性。以下示例中的关键词是日本女性。V6能够区分在微妙的不同亚洲族群之间存在的相貌差异。相较于V5.2版本，图像中女性的外形更具日本特色。这种欧洲人难以理解的亚洲外貌差异已被AI精准捕捉。

（左 v5.2，右 v6）

3）改进的图像提示和混合

在这里，我们所说的改进图像提示主要是针对图像生成的优化，其目的是提升图像的质量，使其能够根据文本描述生成更为精细且逼真的图像。另一方面，我们称之为图像混合的改善，这是指v6版本能够实现不同元素以及风格之间的融合，使其呈现出更加和谐、自然的视觉效果。

通过网友们的实际操作测试，我们可以明显观察到V6在图像生成方面的显著进步。相比于V5.2版本，V6生成的图像更加丰富、细腻且逼真。尽管V5.2在细节表现上已经达到了相当高的水准，接近”乱真”，但V6却给人一种真实的感觉，而非仅仅是对物体的仿真。如果使用正确的提示词，V6生成的图像甚至具有类似于相机直接拍摄的真实质感。

比如这两盘土豆炖牛肉，明显右侧 v6 版本的会更让人有食欲。

（左：v5.2 右 v6）

环境还原能力上看，差异也非常明显：v6 版本的罗马帝国市场，不说你会以为是《罗马》剧组的场景。而 v5.2 就略显平面，房子也略有些奇怪。

（上 v6，下 v5.2）

这两组图的对比差异就更明显了。提示词都是纪录片风格，上面真的很纪录，而下面那组细看问题还是很多，缺乏真实的光影和细节深度。

上为 v6，下为 v5.2

人像方面，其实 v5 已经做到相当还原了。但在 v6 中，脸上的小疙瘩，帽檐上的褶皱与污迹，鼻子上紧贴弧线充满变化的光影让 v5.2 的照片看起来更像是美颜过的，太平面了。就算同样是雀斑，v6 的表现也更让人信服，充满符合人体呈现的集中性，而非平铺感。

v5.2

4）文本绘制能力提升

简单来说，v6 现在可以在图像中更明确地绘制文本，甚至可以规定其风格。为了获得最佳效果，文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示，哪些是实际要在图像中呈现的文本。例如，如果用户想要生成一张图像，上面写着用马克笔在便利贴上写的 “Hello World!”，他们可以使用类似于以下的提示：”imagine a photo of the text Hello World! written with a marker on a sticky note –ar 16:9 –v 6”

这一点在测试中也非常清晰的展示出来了。现在 v6 对文字的处理正确率大幅提高，而且嵌入感也更好。

然而可惜的是英文之外还是鬼画符。但 v6 已经能够完全进行符合画面的风格化文字创作了。

另一个例子中，可口可乐的字体被完全完美还原。

再来个标志设计图——文字完美贴合画面风格。设计师最后的阵地有点守不住了。

Midjourney v6 展现出的强大能力看起来对摄影师和设计团队形成了更加真实的威胁——目前它展现出的审美，和谐的氛围能力已经直追高端摄影师。最可怕还不是它展现出的实力，而是它进化的速度——在 Midjourney 的公告中，他们还表示：v6 的速度、图像质量、连贯性、提示遵循和文本准确性在未来几周内应该会提高。而 v6 beta 在发布半个小时之后宣布了第一次更新，生成速度提升了 2.7 倍。

随着 Midjourney v6 的发布，新一轮图像生成模型的军备竞赛又要开始了。

查看原文