AI的画笔指向何方：丰富内容市场还是千篇一律的审美取向？

Midjourney2yrs ago (2024)update lida

164 0 0

文章主题：丰富的内容市场, AI的画笔, 图像生成

666ChatGPT办公新姿势，助力做AI时代先行者！

打开凤凰新闻，查看更多高清图片

丰富的内容市场，还是千篇一律的审美取向，AI的画笔将指向何方？

文｜动点科技

编译｜郑惠敏

排版｜沈睿璠

本文预计阅读时长7分钟

自生成式AI登场以来，工业革命的奇景每天都在上演。

在图像领域，近期，众多企业和高校纷纷发布重量级模型，这些模型所带来的震撼效果令人瞩目。最初，AI绘画技术让人类艺术家感受到了被替代的压力。然而，随着AI绘画工具的数量和类型的不断丰富，AI绘画也开始出现内部竞争加剧的现象，即所谓的“新神”们不断涌现，将曾经占据主导地位的传统老大拉下马，这种现象可谓是“遍地是大王，短暂而又辉煌”。

实现五倍文生图效率提升

近期， Meta 公司发布了一款新型人工智能模型——CM3Leon（发音类似于“变色龙”）。这款模型的强大功能在于，它既可以生成超高分辨率的图像，根据文本描述生成图像，也能够根据文本指令编辑图像。这无疑是一项重大突破，让我们看到了人工智能技术的无限可能。

CM3leon的训练方式采用了经过调整仅仅依赖于文本语言模型的方法，这种方法既简洁又有效，能够生成出强大的模型。具体而言，基于tokenizer（分词器）的transformer模型与现有基于Diffusion（扩散）的生成模型一样，可以在训练过程中展现出相同的效果。

即使只在一个只有30亿文本符号的数据集上进行训练，CM3leon的零样本性能与在更广泛的数据集上训练的较大模型相比也不逊色。

Meta表示，CM3leon的计算量比Stable Diffusion、Midjourney等基于Diffusion的模型少了五倍，但它却在文本到图像生成方面实现了最先进的性能，在视觉问答和长篇说明等各种视觉语言任务中表现出色。例如，CM3leon可以处理更复杂的prompt，在文本引导下编辑图片中天空的颜色，在图片中房间的特定位置添加水槽和镜子等物体。

在对最广泛使用的图像生成基准测试（零样本MS-COCO）的性能进行比较时，CM3leon的FID（Fréchet Inception Distance，用来计算真实图像与生成图像的特征向量间距离的一种度量，FID值越小则相似程度越高）值为4.88，在文本到图像生成方面确立了新的SOTA（state of the art，最先进的技术水准），优于Google的Parti(FID 7.23)、Stable Diffusion(FID 8.32)、OpenAI的DALL-E2(FID 10.39)等一系列知名文生图模型。这一成就突显了检索增强的潜力，并凸显了扩展策略对自回归模型性能的影响。

CM3leon是一款集多功能性和有效性于一身的人工智能技术，在保证低训练成本和高效推断能力的同时，具备了因果掩码混合模态的特点。作为一款因果掩码混合模态（CM3）模型，它能够生成基于各种不同图像和文本内容序列的文本和图像序列，从而极大地拓展了过去仅支持文本到图像或仅支持图像到文本的模型的应用范围。

在业内，普遍认为CM3leon已经成功站在多模态市场的顶峰。Meta公司对此表示，CM3Leon在图像生成与理解领域取得了显著的突破，但同时也认识到该模型可能存在数据偏差的问题，因此呼吁整个行业注重提高透明度与接受监管。

计算机视觉迎来GPT-4时刻

图像分割作为计算机视觉领域的一个重要组成部分，对于图像理解和处理起着关键性的作用。它在自动驾驶、无人机、工业质检以及病理影像分割等多个领域中具有显著的价值和重要性。

随着深度学习技术的兴起，早期依靠亮度、颜色和纹理等低级特征的图像分割方法逐渐被淘汰，基于神经网络的图像分割方法取得了巨大的突破——通过训练深度神经网络，可以学习到更高层次、更抽象的特征表示，从而能够更准确地进行图像分割。

今年4月，Meta发布了首个基础图像分割模型SAM（即Segment Anything Model，分割一切模型），以及对应的数据库SA-1B，瞬间引爆了AI圈。SAM是面向通用场景的图像分割模型，可用于任何需要对图像进行识别和分割的场景，基于prompt工程，可以成为内容创作、AR/VR、科学领域或通用AI系统的组件，实现多模态处理。

SAM大大提升了普通CV模型的图像分割能力，对于未知和模棱两可的场景也能实现较好的图像分割效果，有望大幅降低计算机识别门槛。英伟达AI科学家JimFan曾表示“SAM是计算机视觉领域的GPT-3时刻”。

但仅仅3个月后，SAM的地位就受到了挑战。

最近，香港科技大学团队开发出一款比SAM更全能的图像分割模型，名为Semantic-SAM。Semantic-SAM可以完全复现SAM的分割效果并达到更好的粒度和语义功能，并支持通用分割（全景、语义、实例分割）、细粒度分割、具有多粒度语义的交互式分割、多粒度图像编辑等广泛的分割任务及其相关应用。

此外，Semantic-SAM在粒度丰富性、语义感知性、多功能等方面优势明显，完胜Meta的SAM：只需单击一下即可输出多达6个粒度分割，与SAM相比，更可控地匹配用户意图，无需多次移动鼠标寻找想要分割的区块。

仅对图像进行分割已无法满足AI研究人员们的野心。视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术，但SAM无法处理视频分割任务。

近日，来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员突破了上述局限，其发布的SAM-PT模型将SAM的零样本能力扩展到动态视频的跟踪和分割任务上，在多个视频物体分割数据集基准中取得了稳定且强大的零样本性能。

AI绘图的另一面

继不断更新Zoom Out（平移）、Pan（扩展）等新功能后，Midjourney最新的V6版本也将会在本月内发布。日前，AI绘图独角兽Stable Diffusion也推出了一项素描转图像的服务Stable Doodle。

对于内容创作者等C端用户来说，AI作图工具的迭代与进化带来的高精度、高质量的内容赋予了更优质的体验和更多元的选择；借助AI内容生成和图像分割/识别模型，可穿戴设备的AR/VR人机交互效率和使用体验将得到显著提升，工业、自动驾驶、医疗等领域的工作效率、识别的精准度也将大幅提升。

但在此良夜之中，仍匍匐着一些被遮盖的隐患。

随着模型的不断更新和迭代，用户的绘画或图像数据可能会被上传到云上的服务器，或被用于训练更为先进的模型，导致一些隐私与版权问题；同时，无限制的AI制图也正被用于基于真实人物的色情图片的制作，试探着法律的底线。

AIGC不断变革内容生产模式的同时也影响着内容的消费方式，更新奇更惊艳的生成内容带来的刺激转瞬即逝。在无数次输入文字描述的选择中、在回声效应的不断固化下，AI的画笔究竟会创造出无比丰富的内容市场还是千篇一律的审美取向，答案令人担忧。