Midjourneyv6：文生图模型的革命性升级

Midjourney1yrs ago (2024)update lida

106 0 0

文章主题：Midjourney, v6, 语言理解, 图像生成

在经历了长达九个月的沉默之后，Midjourney终于推出了其第六个版本，这款名为Midjourney v6的文生图产品展现出了更为精细的细节处理能力、更加强大的语言理解能力以及更加接近人类视觉体验的图片效果。这一重大突破在过去的一段时间里引发了广泛的关注和惊叹。

Midjourney是一个闭源的模型产品，其魔法配方的具体内容并不公开，然而，与OpenAI和Google等公司相同，该产品在更新时会发布官方技术公告。尽管这些公告可能不会透露所有的细节，但仍然有可能让有心的研究人员从中发现一些关于模型提升技术的线索。

而我们去扒了扒它透露的信息后，发现这次更新的意义远不止于大家晒的那一张张精美的图片上……

Midjourney v6生成，电影月光光心慌慌的假剧照，图片源自reddit

图片模型的突破，靠的却是语言模型能力？

Midjourney v6作为一个“文生图”模型，此次改进的核心能力却来自其自然语言处理能力的提升。

首先，我们需要理解的是，这是关于提示词理解能力的提升，也就是我们所说的“跟随能力”。在系统的官方文件中，这种能力被称作“prompt following”。简而言之，它主要是指系统对用户输入的提示词的理解以及响应能力。随着这种能力的加强，Midjourney现在能够更加精准地解析各种复杂的提示，无论这些提示是关键词、命令还是问题。

Midjourney v6生成，电影疤面煞星的假剧照，图片源自reddit

第二个显著的更新是提示词的长度。用户现在可以输入更长的提示词。这一方面得益于上面提到的模型跟踪能力的增强，另外则依靠模型连贯性的提升。

所谓的连贯性，可用一个经典故事来进行阐述。故事中，A向B发起了询问：“下午我们要进行大扫除，你参与吗？”B的回答是：“我不去！”从这段对话中，显然我们可以理解B的意图是不愿意参加大扫除。然而，B在回答时使用的“我去！”这一表述却显得有些意外。因此，要理解这个对话，我们需要具备连贯性。这种能力确保了模型在面对用户 even 复杂的指令时，也能以一致的逻辑进行响应，从而提供准确的信息反馈。

Midjourney v6生成，李奥纳多在网飞出演电视剧的海报，图片源自reddit

这两个自然语言能力上的改进，Midjourney具体是如何做的？

在跟随能力方面的改进，主要基于三个方面：

上下文管理，它通过分析上下文关系来更准确地理解用户意图；序列建模，利用循环神经网络（RNN）和长短时记忆网络（LSTM）来捕捉对话中的长期依赖；以及交互状态跟踪，它持续追踪用户的目标、意图和对话状态，以确保系统响应的连贯性。

这些改进看起来就像是一个大语言模型的进化中在做的事情。

Midjourney v6生成，圣诞夜惊魂版的小丑和哈莉奎茵，图片源自reddit

作为一个结合了语言和图像能力的文生图模型，Midjourney v6在提升其性能方面具有独特的优势。与其他语言模型对话产品形态所涉及的隐私和归属问题不同，Midjourney v6生成的图像属于公共资源，这意味着它可以在更广泛的领域应用，如在线教育、广告创意等。这种优势使得Midjourney v6具备了更高的灵活性和广泛的应用前景。

也就是说你花钱买了服务以后，图片是公共的，模型会生成两份，你拿一份，v6的服务器（也就是v6 discoard）也拿一份。那么Midjouney可以拿这些“实战”反过来加入到自己的预训练大模型中，继续训练模型以提高性能。

Midjourney v6生成，一只猫拿着手枪，图片源自reddit

这引发了一个有趣的问题。如果文生图能够持续获得更高品质的数据，以反馈到预训练阶段，当数据真正成为模型训练的关键因素时，文生图模型是否有可能实现比大语言模型更出色的语言性能表现？

对于大语言模型而言，提升连贯性并非易事，这涉及到诸多因素。然而，身为一款利用自然语言生成图像的模型，Midjourney却有效地简化了这一过程。因为它不需与用户进行实时互动，所以无需采用束搜索等启发式算法，也无需面对自然语言生成的后处理问题，例如语法校正和风格调整。这种简化让Midjourney在提升连贯性时能够更加专注于核心任务，进而显著改善它在理解和响应用户输入时的逻辑一致性表现。

在Midjourney v6的创作过程中，一个引人入胜的角色组合诞生了——猎魔人杰洛特与超人的结合。令人意外的是，这两个角色的扮演者竟然是同一个演员——亨利·卡维尔。这一创意性的选角无疑为角色增添了更多的魅力，同时也引发了粉丝们的热烈讨论。从某种程度上来说，这种跨越不同角色的尝试展示了演员亨利·卡维尔的多面性和演技实力。

懂视觉的模型能有更好的文字能力？

图像模型却靠语言能力突破，这其实已经不是第一次。此前同样引发一阵骚动的Dalle3，也是如此。作为OpenAI的模型，背靠ChatGPT，语言能力自然更强。

在对比了两者后我发现v6在语言理解上其实还是较DALL·E有一定差距。最明显的地方就在于适应性上。适应性代表系统在能适应不同用户的语言风格和表达方式，以及在面对新的或未见过的情况时保持响应连贯性的能力。可能是DALL·E背靠ChatGPT，所以在对自然语言各方面的性能上会更优异一些。

但Midjourney似乎也在瞄着ChatGPT为代表的语言模型的能力来进化。在此次的更新中，v6增加的另一个非常重要的能力，也与语言有关。Midjourney称，其现在拥有了文本绘制能力，虽然依然较弱。

对于人工智能绘图来说，能绘制文本无疑是一项重大进步。

这个能力并非像看起来那样，直接来自模型里大语言模型的模块。在官方更新里，文本绘制能力后紧随的是图像放大功能的更新。它们原理比较复杂，但本质其实是同一个问题。

图像生成模型在训练的时候所用的数据，是一些通过泛化和模糊处理的图像内容。我们都知道，分辨率越高的图片数据量越大，反之，越模糊越泛化的图片它的数据量就越小。人工智能理解图片的方式和人类完全不一样，他们是按照统计学的一个概念叫做“模式识别”，通过图片中的特征来理解。使用泛化和模糊的图片好处在于，小数据量的图片读取速度快，训练时间就短。但想要用这种训练方式来理解文字是非常难的，因为文字是一种符号，这种泛化处理对于图像中的文字尤其不利，即使是微小的变形或模糊都可能导致文字难以辨认。同时，训练所使用的图像分辨率很低，那么生成图片时，分辨率也不会高到哪里去。

而Midjourney的训练方法，其实就是在训练它的图像“放大”能力。它所使用的模型叫做去噪扩散概率模型（denoising diffusion probabilistic models），这种模型通过模拟从噪声中提取信息的过程来生成清晰的图像。想象一下，就像我们用软件修复模糊的老照片，Midjourney的模型也能够从模糊的图像中“学习”到清晰的细节。

也就是说，这是像Midjourney这样的图像模型一直在做的事情，训练越久，优化越久，它的图像“放大”能力就越强，也就会逐渐产生关于文字的生成能力。

在直觉上，这种能力肯定不如“纯粹”的语言模型的语言能力，但一些研究已经在给出不同的指向，在多模态领域很重要的模型VLMO的论文里就曾提到一个有意思的结论，当你完全拿一个在视觉数据上训练好的模型，可以直接对文本数据建模，甚至不需要微调就可以有很强的文本生成能力。但反过来用语言训练在视觉上生成，则差很多。

这是一种很奇怪也很有意思的现象，这一次v6似乎把它再一次轻微地展示出来了。而更重要的是在今天多模态大模型已经成为未来最重要的趋势时，一个图像能力为主的模型产生文字能力给了走向多模态一个新的思路。

世界更精彩了。

本文来自微信公众号：硅星人Pro（ID：Si-Planet），作者：苗正、王兆洋