文章主题:
本文已有外发版本,详情请戳链接:
百度集团副总裁吴甜解读跨模态大模型技术创新,发布AI作画神器文心·一格
🎉【CCIG 2022】图像图形盛宴成都启幕!🌟 百度VP吴甜以🔥《跨模态革命:大模型引领的艺术与创新》为题,震撼亮相,宣布了旗下AI艺术创意新平台——文心·一格的诞生!🚀作为百度基于强大飞桨和文心大模型技术的匠心之作,文心·一格不仅标志着AI绘画新时代的到来,更以它独特的🎨创作风格,引领行业迈向智能化与艺术化的深度融合。🎉这款创新产品旨在赋能创意者,让每个人都能轻松体验到AI作画的魅力,释放无限创作灵感。👩💻艺术家、设计师乃至普通用户,都将能借助文心·一格,实现从传统到现代的无缝过渡,开启创意新篇章!🌈欲了解更多详情,敬请关注后续报道,让我们共同见证这场科技与艺术的交融盛宴!🔥
百度集团副总裁、深度学习技术及应用国家工程研究中心副主任吴甜
为艺术创想插上科技羽翼
人人都能成为“艺术家”
🎨掌握绘画之道,始于基础功训练:线条流畅、色彩丰富、光影细腻、形体准确、结构严谨、透视生动、构图巧妙与空间深远。创作之路并非易事,勤奋不懈的磨砺和独特的洞察力是关键,但天赋亦不可或缺。🌍艺术家们透过敏锐观察,编织出独树一帜的艺术世界。幸运的是,现代科技的进步如深度学习与大模型,正以惊人的速度革新艺术领域。AI如今能瞬间生成多样风格画作,将创作门槛降至前所未有的低点,让每个人都有机会拥抱艺术,成为自己世界的创作者。🌍🎨不再只是艺术家的专利,人人皆可展现艺术才华,只需一点灵感和科技的力量。
文心·一格是基于文心大模型的文生图系统实现的产品化创新。在文心·一格官网,用户只需输入自己的创想文字,并选择期望的画作风格,即可快速获取由一格生成的相应画作。官网资料显示,文心·一格现已支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成,还支持不同的画幅选择。
文心·一格官网地址:http://yige.baidu.com
文心·一格创作的艺术画
文心·一格创作的创意画
文心·一格面向的用户人群非常广泛。它既能启发画师、设计师、艺术家等专业视觉内容创作者的灵感,辅助其进行艺术创作,还能为媒体、作者等文字内容创作者提供高质量、高效率的配图。此外,文心·一格更是为大众用户提供了一个零门槛绘画创作平台,让每个人都能展现个性化格调,享受艺术创作的乐趣。
文心·一格
背后的跨模态大模型技术与系统创新
吴甜表示,数据的井喷式增长、算力的持续突破、算法的持续创新为人工智能带来新机遇,预训练大模型凭借优越的泛化性、通用性和应用效果,成为人工智能发展的重要方向。跨模态大模型是在技术发展和产业实践中孕育而出的,也是百度文心知识增强大模型面向产业应用持续创新及建设的重要方向。
面对日益增长的内容创作需要,如何准确理解用户需求,进而精准刻画并满足多样化风格、高质量生成的要求是技术要解决的关键挑战。文心知识增强跨模态理解大模型在模型创新方面,提出基于多视角对比学习的ERNIE-ViL 2.0,在预训练过程能够同时学习模态间和模态内的多种关联性,提升“图像”和“文本”跨模态语义匹配效果。知识增强跨模态图文生成大模型ERNIE-ViLG,将“文生成图”和“图生成文”任务融合到同一个模型进行端到端学习,从而增强文本和图像的跨模态语义对齐。在此次CCIG 2022会上,吴甜还分享了ERNIE-ViLG文图生成算法的升级,通过渐进式扩散模型,生成空间由小及大、生成轮廓由粗到细,同时根据生成阶段自动选择最优生成网络,文本生成图像的效果取得进一步提升。
新技术在产业实践中应用并创造出价值必须要足够实用化。因此,百度基于文心大模型进行了系统创新,研发了支持AI作画的文生图系统,提供了从用户需求理解到满足的全流程解决方案。首先,基于知识的Prompt工程,理解用户需求并在此基础上丰富语义细节,降低用户输入描述成本。其次,基于扩散生成算法实现创意写实与恢弘构图的艺术画作生成。最后,基于跨模态匹配大模型进行生成画作的结果排序,自动选出语义与美观度最佳的画作。
从技术创新到系统创新再到产品化创新,这一体系性的创新得益于飞桨产业级深度学习平台的夯实有力支撑。飞桨的端到端自适应分布式训练技术、4D混合并行策略、对异构硬件的自适应并行支持,锤炼出框架与算力、算法相结合三位一体的大模型训练优势。飞桨的自动模型压缩工具、自适应分布式推理技术,更是大幅节约了机器资源,让大模型的部署更加高效、便捷,能真正落地应用。
吴甜认为,新技术应用于场景,需要从基础算法、技术系统、工程平台多方面同时创新,文心·一格就是依托于多项新技术综合创新的产品。
除了推出一格这样的AI艺术和创意辅助平台,文心跨模态大模型还为广大开发者、科技爱好者提供了飞桨开源工具和API服务能力,满足开发者灵活探索等需求。对灵活性需求更高的开发者,可以使用飞桨的开源工具PaddleHub基于文图生成开源算法极简开发,并完成模型的管理和一键预测。对便捷性需求更高的开发者,可以使用文心ERNIE-ViLG API极速获得沉浸式文图生成大模型的技术体验,更可灵活方便、高效地实现产品集成。
文心ERNIE-ViLG API地址:
https://wenxin.baidu.com/moduleApi/ernieVilg
据了解,为了帮助更多行业用户清晰了解、轻松应用基于大模型技术的AIGC能力,百度飞桨文心大模型已在8月开设AIGC系列公开课,课程深入浅出、体系全面并配套丰富的实践资源。
让机器具备跨越文本、图像等多种模态的复杂场景理解与生成能力,是人工智能的重要目标之一,也是数字时代科技与产业深度融合创新,催生新业态新模式,加快产业智能化升级的新动能。人工智能在艺术领域的学习与创作能力正以蓬勃之势不断刷新我们的认知,同时也让公众对科技与艺术及文化的融合创新有了更大的想象空间。文心大模型正在成为推动AIGC(人工智能生成内容)发展的新引擎,基于文心大模型的AIGC将会带来创新性的探索,并赋能到广泛的行业领域。
课程预告
业界首个《基于大模型的AI生成能力应用》专题直播课正在火热进行中,其中AI作画专场将于8月24日(下周三)20:30直播开课,带你进一步了解如何基于文心大模型生成丰富多彩的绘画作品。更多课程内容详情如下,欢迎大家扫码报名学习交流。
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~
AI时代,掌握AI大模型第一手资讯!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
扫码右边公众号,驾驭AI生产力!