MidjourneyV6:人工智能图像生成技术的重大革新

Midjourney2yrs ago (2024)update lida

133 0 0

文章主题：关键词：圣诞前夕，Midjourney V6，图像生成 AI 模型，alpha 测试

MidjourneyV6:人工智能图像生成技术的重大革新整理｜冬梅、核子可乐
新模型将带来更强大的 enhancer、upscaler、提示词遵循以及文本生成功能。当然，审查机制也更加严格。

在圣诞的前夕，一个令人振奋的消息传来：由David Holz领导开发团队精心打造的图像生成AI模型Midjourney V6已经问世，并且现在正处在alpha测试阶段。这个消息一经发布，便立刻引起了大量高级用户的高度关注。

新版本的推出不仅带来了诸多令人振奋的优化，还助力了那些已经通过Midjourney以及其他AI艺术工具来创作图像的用户，进一步巩固了他们的信心。

在官方发布的 Discord 帖子中，该公司将 V6 版本定位为重大革新成果。

公告解释指出，随着“提示词遵循效果”的优化，未来的提示词将更加精确，可接受的提示词长度将增加，同时连贯性也会得到提升。此外，公告还着重强调了V6版本与2023年5月发布的V5.1版本之间的改进。V5模型的核心优势在于其实用性，能够支持简短的提示词，从而提高美学效果。这为处理更复杂任务的能力打下了坚实的基础， Enter。

尽管OpenAI的DALL-E 3以及Ideogram等竞争对手的AI图像生成器已经推出了类似的功能，但是自2022年Midjourney亮相以来，这一功能却始终未能实现。

Holz 在 Midjourney Discord 服务器（目前已拥有超 1700 万会员）发帖指出，“这套模型生成的图像在真实度方面远超我们以往发布的任何版本。”Holz 还提到，V6 实际是“我们在 AI 超级集群上从零开始训练而成的第三套模型”，整个开发周期长达九个月。

同类型产品相比，MJ V6 表现如何？

V6模型的一个备受关注的特性便在于其文本绘制功能。尽管这一功能并未成为此次升级的重点（开发团队强调这仍然属于“次要”功能范畴），但它却使MidJourney具备了与DALL-E3以及Ideogram等业界领先模型展开竞争的实力。尤为重要的是，MidJourney采用了与众不同的独特文本生成方式。

MidJourney是一种“次要文本绘制能力”，它要求用户在「引号」内编写文本，并且必须借助—style raw 或更低版本的—stylize 值来完成生成。

在本文中，我们采用了Decrypt工具，对MidJourney以及以文本生成准确性著称的DALL-E3进行了深入的比较实验。根据实验结果，我们可以明显观察到MidJourney更注重风格和视觉效果，甚至在某些情况下会牺牲文本的准确性。然而，在大多数情况下，生成的文本 either 不够精确，或者无法生成。然而，只要能成功输出，其生成的图像质量至少与DALL-E3的产物相差无几，甚至有所超越。值得一提的是，DALL-E3是一款专为ChatGPT和微软 Bing提供技术支持的文本到图像AI模型。

MidjourneyV6:人工智能图像生成技术的重大革新

对比MidJourney、DALL-E 3、SDXL和Harrlogos以及Ideogram AI的文本生成功能，我们可以得出一个简要总结：MidJourney适合注重美感的人群；DALL-E 3在易用性和卡通风格的数字创作方面具有优势；SDXL主要针对A1111 WebUI的高手；而Ideogram AI则在牺牲一定的美学效果以保证文本还原效果方面表现出色。

MidJourney 和 ChatGPT 上的 DALL-E 3 目前均需要付费使用，但 SDXL 和 Ideogram AI 则免费开放。Bing 版本的 DALL-E 3 倒是提供免费使用，但仅支持生成矩形图像，而且用户只能修改提示词、无法直接使用 OpenAI 提供的自然对话方式。

V6 的速度比 V5 略慢一些、成本也更高，但该团队希望能随时间推移而加快模型速度。V6 模型还拥有更加“微妙”且“创意性”的 upscaler，能够将图像分辨率提高至 2 倍。

将这些功能与各种受支持的参数（例如用于更改分辨率的—ar、用于在每次生成结果间体现差异的—chaos、用于更改模型创意程度的—stylize 等）相结合，将为用户带来广泛探索创意空间的可能性。但图像修复、覆盖和图像描述等功能尚不可用。据 MidJourney 介绍，这些功能应该会在下个月逐一补全。

公告鼓励用户们运用这些“令人难以置信的力量，但在享受愉悦与惊奇也应保持负责和尊重的态度”，这也一直是 MidJourney 抱持的宗旨所在。而且后半部分所言非虚，官方的审查制度也将更加严格。

公告中写道，“别干坏事，也不要创作有争议的图像。”这很可能是指 MidJourney 将阻止创作色情或跟政治相关的 Deepfake 图像。

如何使用 MJ V6 新模型？

值得一提的是，此次更新似乎不会默认对用户开放。大家需要在 Midjourney Discord 服务器中、或者在 Midjourney 机器人的直接消息（DM）栏中输入斜杠命令“/settings”，之后在上方的下拉菜单中选择 V6。或者，也可以按照传统方式进行操作，在提示词后方手动输入“—v 6”。

MidjourneyV6:人工智能图像生成技术的重大革新

MJ V6 有什么新功能？

具体来讲，Holz 公布了以下几项新功能：

更准确的提示词遵循效果，并可容纳更长的提示词；

提高了输出一致性和模型知识储备；

改进了图像提示与重新混合；

次要文本绘制能力（用户需要在「引号」内编写文本，配合—style raw 或者更低的—stylize 值可能效果更好）。

/imagine a photo of the text “Hello World!” written with a marker on a sticky note –ar 16:9 –v 6

改进的 upscaler，提供“subtle”（微妙）与“creative”（创意）两种模式（可将分辨率提升至 2 倍）。

鼓励新的提示词编写方式

作为 Midjourney 项目的创始人和负责人，Holz 还公布了一种全新的提示词编写方法。

长期以来，Midjourney 要求用户在 Discord 服务器或者 Alpha 版本的网站中输入特定的文本描述加关键词来生成图像，但很多使用者反映体验深奥而且相当考验技术。为此，用户们还专门在社交媒体上分享了比较好用的提示词编写范式，例如引用相机名称（例如徕卡 M11）、胶片格式（35 毫米）和分辨率（8k），以便从 AI 模型中获取高质量、逼真甚至趋近电影的视觉效果。

但 Holz 在他的 Discord 帖子中明确指出，这类提示词编写方式在 V6 上将呈现出与期望相背的效果。“大家需要重新学习如何编写提示词。”

V6 模型的使用方式与 V5 差异较大，您需要“重新学习”如何编写提示词。

V6 对于提示词的内容更加敏感，请勿使用诸如“广受好评、逼真、4k、8k”之类的“垃圾描述”。

请明确表达需求。V6 可能表现得不那么机灵，但只要提供明确的提示，它现在可以更好地理解您的意图。

如果希望生成摄影风格 / 少点自由发挥 / 多点忠于提示词的内容，则应默认使用—style raw。

将—stylize 的值设置得更低（默认为 100）往往有助于改善提示词理解效果，而较高的值（最高 1000）则倾向于牺牲还原度来换取美学效果。

您可以在 prompt-chat 中通过聊天来了解如何使用 V6 新模型。

MJ V6 用起来怎么样？

模型刚发布不久，就已经有国外网友简单测试了 MJ V6。该名网友表示，“至少就个人使用体验来讲，此次更新只能说是平淡无奇。虽然确实看到了更多的细节和更逼真的生成效果，但区别跟上代模型并不是很大。反正我是没办法一眼就看出哪张图片是 V5.2 生成的、哪张是 V6 生成的。”

MidjourneyV6:人工智能图像生成技术的重大革新

但不可否认，V6 生成的灯光效果和反射细节确实让人深刻印象。

MidjourneyV6:人工智能图像生成技术的重大革新

包括恐怖片导演兼数字艺术家 Chris Perna 在内的其他狂热用户，已经开始对 MJ V6 的生成功能进行全面测试，并将成果发布到了 Instagram 及其他社交媒体网站之上。从早期示例来看，V6 的文本生成效果确实相当出彩。

Chris Perna 发文并配图称，“刚开始，“克苏鲁觉醒”还真让新版 V6 有点懵。”

MidjourneyV6:人工智能图像生成技术的重大革新

一些网友也晒图并发表了自己对于 V6 的看法。

MidjourneyV6:人工智能图像生成技术的重大革新

Midjourney V6……终于可以绘制文字啦！也许效果还不完美，但我一直在探索要如何实现。这四张图都是一次生成的结果，可能是我运气好吧?‍♂️

MidjourneyV6:人工智能图像生成技术的重大革新

Midjourney V6 中的皮肤细节令人难以置信。

MidjourneyV6:人工智能图像生成技术的重大革新

Midjourney V6 的生成效果非常出色！同等分辨率下的细节大幅增加。请注意，这并不是最终模型图像，也没有经过 upscale 处理。

MidjourneyV6:人工智能图像生成技术的重大革新

使用相同提示词，从 Midjourney V1 到 V6 的生成效果区别：白色背景、苍老刻薄的男性肖像特定，92 岁，皱纹，逼真的皮肤质感，室内照明，佳能 f/4。

Holz 在发布 V6 的 Discord 帖子中指出，新模型“尚处于 alpha 测试阶段。期间会有很多调整变更，恕不另行通知……在最终正式发布 V6 时，很多情况将发生重大变化……V6 也不会是 Midjourney 的终点，希望大家能够感受到这套满载我们集体智慧与创意结晶的模型的一路发展和演进。”

此外，V6 目前还缺少 V5.2 模型中的一些功能，包括左右平衡和缩小，但 Holz 表示这些功能将在 V6 的后续更新中实现。

作为许多人眼中最卓越、质量最出色、也最具创意的 AI 艺术生成器，Midjourney 的此次更新表明其从未停止技术探索和模型改进的脚步，而且在市场上也始终保持着领先地位。目前挑战 Midjourney 的竞争对手要么使用内部自有模型，要么选择开源 Stable Diffusion 模型——这是一种流行的 AI 底层技术，其中的扩展算法经过训练以从视觉“噪声”中重新创建图像。

与此同时，Midjourney 和其他基于扩散技术的 AI 艺术生成器也面临着艺术家们发起的版权侵犯集体诉讼。这些艺术家指控对方在未经自己明确同意、或提供补偿的情况下，利用他们公开发表的作品训练 AI 模型。但 AI 厂商也没有坐以待毙，正在积极探索在 AI 艺术创作工具中建立强大的“安全使用”防侵权机制。

参考链接：

https://venturebeat.com/security/in-todays-global-threat-landscape-it-pays-to-go-back-to-basics/

https://decrypt.co/210637/midjourney-v6-base-model-upgrade-text-generation

活动推荐

12 月 28-29 日， 2023 年最后一场 QCon 全球软件开发大会 & QCon 中国 15 周年 Party 即将落地上海。除了精彩演讲之外，还有 7 大亮点活动，等你一起来玩～

① 承载着最前沿生成式 AI 技术之旅「下一站 GenAI 」；

②「云原生时代的数据架构与性能提升」专场免费报名；

③五场高端闭门交流会议；

④大模型精彩公开路演，免费参与；

⑤大模型展区新升级，10+ 大模型及应用厂商现场 Battle；

⑥「2023 数字化践行者年度力量榜」榜单评选结果正式发布；

⑦ 两大抽奖活动，100% 中奖率！