拆分再重组:三大功能助力久攻薄发
– 三大功能
– 拆分再重组
– 久久为功
新智元报道
编辑:编辑部【新智元导读】阿里通义大家族又上新了,这一回出场的是AI作画大模型「通义万相」,实测后发现,它的创作能力已经逼近世界TOP 2的作画模型Midjourney和Stable Diffusion!
最近,AI作画大模型,已经卷出了新境界。
Midjourney和Stable Diffusion,仿佛每几天就要放出一个大杀器。而我们国产的AI作画大模型,当然也没落后。阿里云通义大模型家族的AI绘画创作大模型「通义万相」,在千呼万唤中终于来了!基于阿里研发的组合式生成模型Composer,通义万相提出了基于扩散模型的「组合式生成」框架,通过对配色、布局、风格等图像设计元素进行拆解和组合,提供了高度可控性和极大自由度的图像生成效果。从此,图片设计的门槛将大幅降低,无论是艺术设计、游戏,还是文创,都将迎来一场变革。目前,通义万相已经开启定向邀测。
三大功能
目前,通义万相具有以下三大功能:文生图、相似图生成、风格迁移。
文生图
首先,当然就是最基本的文生图功能。只要输入prompt,选定创作风格(水彩、油画、中国画、扁平插画、二次元、素描、3D卡通等),通义万相就可以自动生成海量的创意灵感。比如,「中国甲虫陶瓷雕塑零件面板,装配零件和道具,金画细节Knolling布局,解构,高度详细,深度,许多零件,流明渲染,8k」想要个VR游戏的背景,输入这样的prompt:「用蒸汽动力机器、复杂的发条机构和工业时代的建筑建造一座错综复杂的蒸汽朋克大都市,非常适合VR和AR体验」。生成的图片的确很有蒸汽朋克风,让人忍不住进入这样的VR游戏体验一把了!再试试雕塑风格的画作:「创造一个令人难以忘怀的美丽画像,描绘一座摇摇欲坠的废弃城堡被迷人的森林所取代,藤蔓和树根编织在不断衰退的结构中,雕刻」。通义万相给出的被树根和藤蔓包围的废弃古堡有那个味了,感觉下一秒就要发生古堡惊魂事件。「描绘一个疯狂科学家在实验室内的场景,以古怪的人物、奇幻的装置和丰富多彩的化学反应为特色,用于漫画创作。」「在夜间环境中创建一个拥有生物发光植被、水生生物和水下结构的宁静水下城市,3D环境设计。」完全就是小编脑海中的海底科幻城了!下面来点国风的:「封面插图,未来派中国建筑主题,卡通,水彩,精确,详细,充满活力的调色板,黄色,蓝色,红色」。这不,就在前两天,拉斯维加斯耗资23亿美元建成的新地标「MSG Sphere」,也称碗形剧院,正式点亮了。MSG球体的外立面屏幕是世界上最大的可编程LED屏幕。让通义万相也来设计一款「球形建筑」,提示很简单:「球形建筑,球体外全是LED屏幕」。时尚与美感兼具,妥妥的设计大师。输入prompt:「吉卜力,春天,水彩,风景,手绘,厚涂,唯美,治愈系,二次元」。通义万相生成的这4幅吉卜力风格的水彩画,美到无以言表。再让通义万相生成一幅有意境的城市落日景观吧。黄昏时刻,天空云彩青一块紫一块,高耸的摩天大楼像巨人一样直视着整座城市,还有那窗户映射着日落的余晖,简直美不胜收。
相似图生成
在这个功能中,只要用户提供一张参考图像,就可以获得一张与之内容、风格类似的图像。这个功能,对于原画师等相关从业者,可是太实用了。比如,看到一张图,非常希望生成类似的风格,该怎么办?通义万相的相似图生成功能,就为用户解决了这个烦恼。另外,有了这个功能,用户就可以根据现有素材,快速地批量扩展相似素材。而且,生成的相似图,很可能就会提供全新的灵感源泉,挖掘出新的创意。比如,输入这个水晶球。通义万象就会生成类似风格的四个水晶球。不能用原图,但是可以得到它的平替,这也太香了吧!输入新海诚的《言叶之庭》(「言の葉の庭」)动画截图——生成的类似风格的照片,可谓抓住了新海诚的精髓。来试试能不能复刻出《崩坏:星穹铁道》的布洛妮娅和克拉拉。通义万相在原图的基础上,创造出了新的人物,当然AI画手的问题依然存在。试着生成和这幅原神海灯节侧影图相近的图画。图源:@步明嚼栗实测效果也算小有意境。下面是一大波相似图。左边是Midjourney根据prompt生成的原图,右边都是通义万相根据原图生成的作品。可以看出,通义万相的部分作图能力,已经在逼近全球最牛AI作画神器Midjourney。
风格迁移
有时候,很喜欢一幅图的画风,想要把某张原图处理成类似风格,怎么办?通义万相的风格迁移功能,就完美地解决了我们的需求!比如,上传一张写实的风景图。但是我们想要的图片,是下面这幅水彩猫猫的风格。那就把这张猫猫也输入大模型,就能一键get类似风格的风景图了。输入一张素描画的鹿,右边是希望迁移的风格。迁移之后,就得到了彩色的鹿,毛发的细腻质感栩栩如生。让我们试着把这个穿着白纱的美女,改成法国印象派画家雷诺阿的风格。迁移完成后,得到了这样一幅印象派的人物肖像。来试试《权力的游戏》中龙妈,迁移的风格选择的是19世纪英国画家约翰·威廉·沃特豪斯的作品<The Lady of Shalott>。通义万相生成的龙妈,果然有了「拉斐尔前派」的浪漫主义风格。剪刀手爱德华的形象孤独、黑暗、阴郁,属于鬼才导演蒂姆·波顿典型的哥特风。而毕加索开创的立体主义风格,通过空间、色彩与线的运用,表现出强烈的情感和个性。二者一结合,果然碰撞出了不一样的火花。最近爆火的电影「消失的她」,看过的人都说后劲十足。除了不断反转扣人心弦的剧情,剧中的美学设计也广受赞扬,影片无处不梵高,就连何非带李木子去看的海底星空,也是梵高的「星夜」。不如,以星夜与大海为材,看看通义万相创意如何?原图+风格图不能说完全是李木子看到那片海底星空,但通义万相在处理印象派风格、油画的笔触,别有韵味。还有这个夏天,「多巴胺穿搭」遍布全网,高亮配色、撞色混搭,成为全新潮流热点。要说玩配色,苹果最拿手了。前段时间,苹果首个VR头显发布,主打白色。我们不如来个「多巴胺Vision Pro」。原图+风格图借着五彩iPad,苹果未来迭代的Vision Pro的配色,通义万相帮你设计好了。
拆分再重组
通义万相的能力如此强大,背后杀手锏便是,阿里自研的「组合式生成」模型Composer。论文地址:https://arxiv.org/pdf/2302.09778.pdf与Stable Diffusion原理不同的是,Composer把训练图像拆解为多个图像,然后基于这些元素再训练扩散模型(DM),让其能够灵活组合。基于这个「拆解-组合」思想,你就能看到一种现象,称为「组合爆炸」。假设有100张「带珍珠耳环的少女」图片,拆分成8种元素,那么就能生成100^8的组合结果。那么,为什么要通过「组合性」这一方法去实现图像生成创造力的爆发?由于当前,许多AI模型在细节可控方面,比如色彩、风格、布局等做的还不够。阿里研究人员认为,若想要实现图像可控生成,重点应该放在「组合性」上。这也是这项研究最大贡献,即提出基于扩散模型的「组合式生成」框架。就像论文中,引用了语言大家乔姆斯基的名句,「有限方法的无限使用」。具体来讲,首先将训练图像拆解成一系列不同的设计元素,包括配色、草图、布局、风格、语义、材质等,然后训练扩散模型。然后AI模型便可以将这些被拆分的元素,在推理阶段组合成新的图像。在这个过程中用到的元素,可以自由修改编辑。由此,拆解-组合提供了设计元素层面的可控性。同时,我们也能看到,不同元素的组合,能够输出指数级的图像,是一个极大的生成空间。基于组合爆炸,「组合式生成」给人类设计师生成定制化图片,提供了极大的自由度和定制化能力。正是基于Composer框架,通义万相可以灵活处理各类图生图创作任务。首先,最基本能力就是相似图生成。保持图像语义内容不变,改变图像中局部细节,即可实现相似图生成。从上面演示的例子可见,通义万相相似图功能可以在较好保持原图主体一致性的同时、提升生成图的多样性和质量。另外,Composer可以进行图像重构,能够简单地改变图像表示来重新配置图像,草稿图和分割图。Composer还能实现风格迁移,是在保留原始图片基本形态,结构的同时,迁移风格图片的色彩、笔触、风格等个性化信息。如下是图像实现的位置迁移。值得一提的是,最新研究成果已经被机器学习顶会ICML 2023接收。
久久为攻,厚积薄发
从通义千问,到通义听悟,再到通义万相,阿里将大模型能力逐渐向公众展现出来。那么,或许你会问,最新发布的通义万相和此前两个定位有何差异?首先,通义千问是阿里云推出的大语言模型,类似GPT-4、PaLM等,能够回答问题、创作文字、编写代码等能力。目前,阿里云也在帮助行业客户打造专属模型。通义千问大模型已在多个行业落地,已有累计30万用户申请接入通义千问。通义听悟,是接入了通义千问大模型能力的应用产品,目前累计超36万用户。它能够高效对音频的转写、检索、摘要和整理。不得不说,这简直就是会议AI神器,用大模型自动做笔记、整理访谈、提取PPT等。小编近来的会议记录、采访,都是在通义听悟加持下,效率嗖嗖嗖地提升。作为阿里云大模型家族的新成员,通义万相是聚焦在图片创作方向的大模型。当然,它的能力也在不断进化中,并逐渐向行业客户开放相关能力,未来主要为电商、文创、游戏等视觉创意行业提供服务。随着AI模型赛道日益拥挤,国内外科技巨头纷纷入局,那么阿里有何独特优势,去创造新的可能?要知道,大模型打造的门槛非常高,对算力、数据、大模型基础设施等提出了极高要求。大模型的研发动辄要超千亿参数,囊括了底层算力、网络、存储、大数据、AI框架、AI模型等复杂技术的系统性工程,堆GPU是无法实现的。真正需要的是AI-云计算的全栈技术能力。作为全球头部科技公司之一,阿里在这几个领域都有深度布局,并且有着深厚的技术积淀,同时也是为数不多拥有超万亿参数大模型研发经验的机构。在AI算法方面,阿里是国内最早率先为中文大模型的发展做了一些前沿性、引领性的工作,为自身构建了实力引领的先发优势。阿里的大模型探索之路从2019年便已经开始。一起步,通义大模型直接登顶全球NLP权威榜单GLUE。2021年,阿里先后发布了,国内首个超百亿参数的多模态大模型M6,以及号称「中文版GPT-3」的语言大模型PLUG。同年,还训练实现了全球首个10万亿参数AI模大型。2022年,阿里在世界人工智能大会上推出了「通义大模型系列」,在语言及多模态能力、超大模型、通用统一模型等多个技术维度上,处于国内第一梯队。为推动大模型研发和应用,阿里达摩院在国内首提「Model as a Service」理念,并牵头建设了国内规模最大的AI模型服务社区「魔搭」。算力层面,阿里云是亚洲第一、全球第三的云计算服务商,阿里云拥有国内最强的智能算力储备,阿里云的智算集群可支持最大十万卡GPU规模。去年8月,阿里建成了国内最大规模的智算中心「飞天智算平台」。6月27日,由复旦大学与阿里云、中国电信共同打造的「国内高校最大」云上科研智算平台CFFF在复旦正式上线。以先进的公共云模式提供超千卡并行智能计算,支持千亿参数的大模型训练,领先于斯坦福大学等国际知名高校。在AI大模型探索之路上,国内外的科技巨头正在快马加鞭,你追我赶。正是因为有了强大的云基础设施能力、深厚的大模型技术积淀,为阿里参与这轮AI竞赛提供了无与伦比的优势。凭借这些技术力,未来阿里还会有更多技术创新,为千行百业带来更多的想象空间。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!