文心一言，走出“改变未来”第一步

21 0 0

文心一言，走出“改变未来”第一步作者｜一橙出品｜网易科技《态℃》栏目从宣布ALLIN大语言模型，到推出“文心一言”，百度没有让大家等很久。3月16日14时，百度在北京总部召开新闻发布会，正式启动基于百度新一代大语言模型的生成式AI 产品文心一言的邀请测试。从现场演示来看，文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。“全球大厂中百度是第一个发布的”，李彦宏坦承，这段时间不断有人问他为什么现在发布文心一言，百度是否真的ready？“从我自己在内测过程中体验到的文心一言的能力来说，（当前）确实不能叫作‘完美’”。文心一言，走出“改变未来”第一步李彦宏表示，这个时间点发布是因为有市场需求，百度的各个产品线都在等待这样的技术，客户也在等待，因而需要尽早推出。“这类大语言模型还远未到发展完善的阶段，有赖于通过真实的用户反馈而逐步迭代。”改变的本质，是通过行动摆脱原有的束缚，去开发更多的可能性，逼迫自己走出舒适区。百度和文心一言，迈出了“改变未来”的第一步。文心一言，走出“改变未来”第一步 “文心一言，未来将越来越强大”当下，全世界互联网都刮起了一阵ChatGPT风，其中钻研AI能力十年的百度，以及其推出的大语言模型“文心一言”，被市场寄予最大厚望。目前来看，“文心一言”的基础能力还算扎实，作为国内完全自研的语言大模型，在自然语言处理、中文理解、文本生成和人机对话上有着相对成熟的表现。首先，文心一言具备文学创作能力，可以进行总结、分析、内容、检索，延伸至检索增强。值得注意的是，文心一言在许多专业测试中表现出“人类水平的性能”，甚至发生“智能涌现”，涌现出了知识和逻辑推理能力。发布会上，百度展示了文心一言的创意文本能力，大模型目前已经能够完成“起名字”、“写新闻稿”、“写标语”、“生成歌词”等操作。尤其是对于中文的理解，在内测过程中《态℃》栏目发现，文心一言正确解释了网络流行语“躺平”的含义，还能够劝诫年轻人，“应该注意不要将躺平视为逃避显示或自我解放的方式，而是应该积极面对生活，寻找解决问题的方法。”同时百度还公布了文心一言的邀请测试方案。3月16日起，首批用户可通过邀请测试码，在文心一言官网体验产品，后续将陆续开放给更多用户。此外，百度智能云即将面向企业客户开放文心一言API接口调用服务。3月16日起正式开放预约，搜索“百度智能云”进入官网，可申请加入文心一言云服务测试。百度打的是目标明确的仗，因为用户对于大语言模型的需求始终是清晰确定的，多模态一定是生成式AI一个明确的发展趋势。据百度介绍，文心一言的视频生成能力则因成本较高，现阶段还未对所有用户开放，未来会逐步接入。李彦宏也表示，“未来，随着百度多模态统一大模型的能力增强，文心一言的多模态生成能力也会不断提升。”对标ChatGPT，文心一言目前确实还存在着差距，但后发也有可能先制。百度作为国内AIGC的先行者，对比同类企业中已经占据了先发优势。百度首席技术官王海峰表示，文心一言，是新一代知识增强大语言模型，是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术，ERNIE和PLATO中也已经有应用和积累，在文心一言中又有了进一步强化和打磨；后三项则是百度已有技术优势的再创新，也是文心一言未来越来越强大的基础。李彦宏强调：“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮，效果会迅速提升，给你‘士别三日，当刮目相看’的惊喜。”

文心一言，走出“改变未来”第一步

高强度的研发投入壁垒百度之所以敢于以身证道、勇于下注，正因深耕AI 10年坚持全栈部署，累计研发投入超过1000亿元，是全球大厂中极少数具有能支撑训练大语言模型的公司。对于百度而言，去做语言大模型这件事，并不存在着艰难的冷启动。百度一直坚持压强式、马拉松式的研发投入。2022年百度核心研发费用214.16亿元，占百度核心收入比例达到22.4%。2021年，百度总体研发投入强度为20.03%，位列民营企业500强第二。2020年，百度研发投入强度达18.22%，位列民营企业500强第一。在数据方面，搜索起家的百度，坐拥千亿级全网索引和覆盖超过50亿实体的中文知识图谱。这意味着，百度可以实现对大模型充分的训练和预测，进而使得其智能化水平不断进化。据介绍，文心一言大模型的训练数据包括万亿级网页数据，数十亿搜索数据和图片数据，百亿级语音日均调用数据，及5500亿事实的知识图谱。在算力和算法方向，由于AI大模型通常需要进行大量的计算和存储，因此AI企业往往需要在芯片等硬件方面投入巨资。生成式AI产品的数据量巨大，对于AI算力提出了更高的要求。去年底开始，百度智能云就在全面升级云服务能力。去年12月发布国内首个全栈自研AI基础设施“AI大底座”，今年2月升级AI研发运营一体化（MLOps）能力，今年3月百度阳泉智算中心完成升级。目前百度已拥有阳泉、徐水、定兴三个云计算中心，仅阳泉云计算中心可承载24万台服务器，为研发大语言模型提供了底层的硬件支持。百度还拥有国内规模最大的深度学习框架“百度飞桨”，为了支持千亿参数模型的高效分布式训练，百度飞桨在2021年4月专门研发了 4D 混合并行技术。截至2022年底，飞桨平台上已凝聚535万开发者、创建67万个AI模型，服务20万家企事业单位，位列中国深度学习平台市场综合份额第一。从算力、算法到数据，从高端芯片昆仑芯，到飞桨深度学习框架，百度在各个层面都早有关键自研技术，给百度文心一言提供了强大的研发投入壁垒。

文心一言，走出“改变未来”第一步

走出“改变未来”第一步大语言模型对于人类而言究竟意味着什么？英诺天使基金合伙人王晟曾告诉《态℃》栏目，“今天的大模型正在无限接近通用目的技术，接近了印刷术，接近了蒸汽机，接近了电力，接近了芯片，接近了互联网。”可以想象，大模型作为技术底座支撑各个领域广泛的创新和发展，结果是会导致人类经济产生非线性的跃迁，或者说是大幅度的非线性增长。一个创造性的新世界，百度已经走出“改变未来”第一步，勇立新时代潮头。目前，大模型相关机会主要分为两个方向。第一是研发大模型，直接对标ChatGPT，比如做中国版ChatGPT，为下游企业提供API接口调用服务；第二就是将ChatGPT垂直应用到各个细分领域。随着文心一言的面世，首先改变的或许就是云市场的游戏规则：选云，看AI能力（而非算力、存储等）。未来用户对云厂商的需求更聚焦智能服务，看框架好不好、模型好不好，以及模型、框架、芯片、应用四层架构之间的协同，对原有商业模式的降维打击。同时，文心一言作为“基建”，还将为创业公司创造更大的创业空间。创业者应该会像当年围绕IOS和安卓做应用的架势，也围绕大语言模型做应用。李彦宏表示，对于大部分创业者和企业来说，真正的机会是，基于通用大语言模型，抢先开发重要的应用服务。就像移动互联网时代，最成功的商业产品不见得是安卓和IOS，而是基于安卓和IOS开发的微信、淘宝、抖音等各种超级应用。随着文心一言产品能力不断成熟，百度也将进入业绩提速的快车道。面向消费者，文心一言嵌入百度搜索，将引领搜索体验的代际变革。目前百度拥有6.48亿的月活，“文心一言”落地后，短时间内势必大幅拉升百度搜索MAU，吸引到更多的用户，产生新的流量入口，进一步优化用户体验，有望为百度搜索带来商业价值的快速增长。除搜索之外，百度旗下百度智能云、自动驾驶、小度等业务，也将通过文心一言的能力重新被赋能。未来，文心一言将与小度进行集成，升级小度智能设备和服务。面向2B业务，百度智能云提供了四层人工智能全栈能力，从云基础设施到包含深度学习开源框架的深度学习平台，再到大模型和最终应用。此外，百度还计划将文心一言整合到Apollo智舱系列产品等汽车解决方案中，让智能汽车具备领先一代的人车交互体验。语言大模型是人工智能的里程碑，更是分水岭。随着文心一言的推出，或将为百度焕发全新的生命力。