DALL·E3:强大新功能，多模态输出引领AI时代

AI与法律2yrs ago (2024)update lida

153 0 0

文章主题：OpenAI, DALL·E, ChatGPT, 多模态输出

据财联社报道，OpenAI近日在其官方网站上发布了一则重要消息，计划在今年的10月份，通过API的形式向ChatGPT Plus和企业版用户提供一款全新的文本生成图像产品——DALL·E 3。这一举措意味着，经过DALL·E 3的强化支持，ChatGPT将首次实现多模态输出，用户只需通过输入文本，便可直接在ChatGPT中生成各类型的图片。

一、多模态技术的发展将拓宽下游应用场景

在2021年，OpenAI便利用其先进的GPT-3大语言模型以及强大的变分自编码器（VAE）技术，成功研发出了一个名为DALL·E的文本生成图片的产品。这一产品的使用方式和功能颇为相似，与Midjourney、百度文心一格等同类产品相比，毫不逊色。

在2022年4月，OpenAI又发布了DALL·E 2，在功能、资源消耗方面进行了大幅度优化。

今天发布的DALL·E 3技术，相较于前两代人，具有更为强大的功能，并能够整合到ChatGPT之中，实现多元化的输出方式。

为了提升DALL·E 3的数据安全性能，OpenAI采取了一系列的优化措施。首先，该系统被严格禁止生成诸如暴力、仇恨、成人等非法内容，以确保其遵守相关法律法规。其次，OpenAI在系统中内置了内容来源分类器，这一功能能够有效地识别由DALL·E 3生成的图片，从而防止它们被用于非法目的。此外，用户还可以选择是否让DALL·E 3提供具有特定艺术家风格的图片。默认情况下，这是允许的。但如果艺术家本人不允许，用户可以向OpenAI申请，将相应的作品从训练数据中剔除，以避免可能产生的法律风险。

广发证券表示，多模态技术的崛起将会拓展下游应用领域，同时底层技术的提升使得应用层面更加接近消费者，这种应用的持续落实，预示着人工智能图形计算（AIGC）行业步入了一个新的发展阶段，而这也意味着商业化的盈利空间逐渐打开。

二、算力即是模型的动力源泉

国盛计算机强调，现有的多模态输入输出主要集中在文本和图像领域，其应用场景涵盖了智能办公以及各种人工智能生成（AIGC）功能。在未来五年内，随着多模态通用预训练语言模型（GPT）技术的不断发展，AI的泛化能力将得到显著提升。通用视觉、通用机械臂、行业服务机器人和真正实现智能家居等领域有望在短期内步入我们的生活。而到了未来十年，结合复杂多模态技术的大型模型有望拥有与世界互动的能力，从而推动通用机器人等各行各业的广泛应用。

除此之外，应用增长及多模态数据处理复杂度提高催生算力需求。如果模型是下一个时代的“流量入口”，那么算力即是模型的动力源泉，在大厂模型竞争加速背景下，算力军备竞赛有望更加强烈。

三、相关上市公司：南凌科技、拓维信息、菲菱科思

南凌科技可以为客户提供云端算力租赁相关服务，公司结合网络的边缘优势，推出边缘云计算服务，通过云原生的一站式云管理平台，为行业客户提供“家门口”的专有云资源。

拓维信息目前参与建设的重庆人工智能算力中心为算力出租业务，公司部分AI产品已使用液冷技术。

菲菱科思主要业务为交换机、企业级路由器和无线局域网设备，研发出了高端数据中心交换机，华为是公司的合作伙伴。