作者|一橙出品|网易科技《态℃》栏目从宣布ALLIN大语言模型,到推出“文心一言”,百度没有让大家等很久。3月16日14时,百度在北京总部召开新闻发布会,正式启动基于百度新一代大语言模型的生成式AI 产品文心一言的邀请测试。从现场演示来看,文心一言的使用场景主要包含文学创作、商业文案创作、数理推算、中文理解和多模态生成。“全球大厂中百度是第一个发布的”,李彦宏坦承,这段时间不断有人问他为什么现在发布文心一言,百度是否真的ready?“从我自己在内测过程中体验到的文心一言的能力来说,(当前)确实不能叫作‘完美’”。李彦宏表示,这个时间点发布是因为有市场需求,百度的各个产品线都在等待这样的技术,客户也在等待,因而需要尽早推出。“这类大语言模型还远未到发展完善的阶段,有赖于通过真实的用户反馈而逐步迭代。”改变的本质,是通过行动摆脱原有的束缚,去开发更多的可能性,逼迫自己走出舒适区。百度和文心一言,迈出了“改变未来”的第一步。“文心一言,未来将越来越强大”当下,全世界互联网都刮起了一阵ChatGPT风,其中钻研AI能力十年的百度,以及其推出的大语言模型“文心一言”,被市场寄予最大厚望。目前来看,“文心一言”的基础能力还算扎实,作为国内完全自研的语言大模型,在自然语言处理、中文理解、文本生成和人机对话上有着相对成熟的表现。首先,文心一言具备文学创作能力,可以进行总结、分析、内容、检索,延伸至检索增强。值得注意的是,文心一言在许多专业测试中表现出“人类水平的性能”,甚至发生“智能涌现”,涌现出了知识和逻辑推理能力。发布会上,百度展示了文心一言的创意文本能力,大模型目前已经能够完成“起名字”、“写新闻稿”、“写标语”、“生成歌词”等操作。尤其是对于中文的理解,在内测过程中《态℃》栏目发现,文心一言正确解释了网络流行语“躺平”的含义,还能够劝诫年轻人,“应该注意不要将躺平视为逃避显示或自我解放的方式,而是应该积极面对生活,寻找解决问题的方法。”同时百度还公布了文心一言的邀请测试方案。3月16日起,首批用户可通过邀请测试码,在文心一言官网体验产品,后续将陆续开放给更多用户。此外,百度智能云即将面向企业客户开放文心一言API接口调用服务。3月16日起正式开放预约,搜索“百度智能云”进入官网,可申请加入文心一言云服务测试。百度打的是目标明确的仗,因为用户对于大语言模型的需求始终是清晰确定的,多模态一定是生成式AI一个明确的发展趋势。据百度介绍,文心一言的视频生成能力则因成本较高,现阶段还未对所有用户开放,未来会逐步接入。李彦宏也表示,“未来,随着百度多模态统一大模型的能力增强,文心一言的多模态生成能力也会不断提升。”对标ChatGPT,文心一言目前确实还存在着差距,但后发也有可能先制。百度作为国内AIGC的先行者,对比同类企业中已经占据了先发优势。百度首席技术官王海峰表示,文心一言,是新一代知识增强大语言模型,是在ERNIE及PLATO系列模型的基础上研发的。它的关键技术包括有监督精调、人类反馈的强化学习、提示、知识增强、检索增强和对话增强。前三项是这类大语言模型都会采用的技术,ERNIE和PLATO中也已经有应用和积累,在文心一言中又有了进一步强化和打磨;后三项则是百度已有技术优势的再创新,也是文心一言未来越来越强大的基础。李彦宏强调:“文心一言将建立起真实用户反馈、开发者调用和模型迭代之间的飞轮,效果会迅速提升,给你‘士别三日,当刮目相看’的惊喜。”
高强度的研发投入壁垒百度之所以敢于以身证道、勇于下注,正因深耕AI 10年坚持全栈部署,累计研发投入超过1000亿元,是全球大厂中极少数具有能支撑训练大语言模型的公司。对于百度而言,去做语言大模型这件事,并不存在着艰难的冷启动。百度一直坚持压强式、马拉松式的研发投入。2022年百度核心研发费用214.16亿元,占百度核心收入比例达到22.4%。2021年,百度总体研发投入强度为20.03%,位列民营企业500强第二。2020年,百度研发投入强度达18.22%,位列民营企业500强第一。在数据方面,搜索起家的百度,坐拥千亿级全网索引和覆盖超过50亿实体的中文知识图谱。这意味着,百度可以实现对大模型充分的训练和预测,进而使得其智能化水平不断进化。据介绍,文心一言大模型的训练数据包括万亿级网页数据,数十亿搜索数据和图片数据,百亿级语音日均调用数据,及5500亿事实的知识图谱。在算力和算法方向,由于AI大模型通常需要进行大量的计算和存储,因此AI企业往往需要在芯片等硬件方面投入巨资。生成式AI产品的数据量巨大,对于AI算力提出了更高的要求。去年底开始,百度智能云就在全面升级云服务能力。去年12月发布国内首个全栈自研AI基础设施“AI大底座”,今年2月升级AI研发运营一体化(MLOps)能力,今年3月百度阳泉智算中心完成升级。目前百度已拥有阳泉、徐水、定兴三个云计算中心,仅阳泉云计算中心可承载24万台服务器,为研发大语言模型提供了底层的硬件支持。百度还拥有国内规模最大的深度学习框架“百度飞桨”,为了支持千亿参数模型的高效分布式训练,百度飞桨在2021年4月专门研发了 4D 混合并行技术。截至2022年底,飞桨平台上已凝聚535万开发者、创建67万个AI模型,服务20万家企事业单位,位列中国深度学习平台市场综合份额第一。从算力、算法到数据,从高端芯片昆仑芯,到飞桨深度学习框架,百度在各个层面都早有关键自研技术,给百度文心一言提供了强大的研发投入壁垒。
走出“改变未来”第一步大语言模型对于人类而言究竟意味着什么?英诺天使基金合伙人王晟曾告诉《态℃》栏目,“今天的大模型正在无限接近通用目的技术,接近了印刷术,接近了蒸汽机,接近了电力,接近了芯片,接近了互联网。”可以想象,大模型作为技术底座支撑各个领域广泛的创新和发展,结果是会导致人类经济产生非线性的跃迁,或者说是大幅度的非线性增长。一个创造性的新世界,百度已经走出“改变未来”第一步,勇立新时代潮头。目前,大模型相关机会主要分为两个方向。第一是研发大模型,直接对标ChatGPT,比如做中国版ChatGPT,为下游企业提供API接口调用服务;第二就是将ChatGPT垂直应用到各个细分领域。随着文心一言的面世,首先改变的或许就是云市场的游戏规则:选云,看AI能力(而非算力、存储等)。未来用户对云厂商的需求更聚焦智能服务,看框架好不好、模型好不好,以及模型、框架、芯片、应用四层架构之间的协同,对原有商业模式的降维打击。同时,文心一言作为“基建”,还将为创业公司创造更大的创业空间。创业者应该会像当年围绕IOS和安卓做应用的架势,也围绕大语言模型做应用。李彦宏表示,对于大部分创业者和企业来说,真正的机会是,基于通用大语言模型,抢先开发重要的应用服务。就像移动互联网时代,最成功的商业产品不见得是安卓和IOS,而是基于安卓和IOS开发的微信、淘宝、抖音等各种超级应用。随着文心一言产品能力不断成熟,百度也将进入业绩提速的快车道。面向消费者,文心一言嵌入百度搜索,将引领搜索体验的代际变革。目前百度拥有6.48亿的月活,“文心一言”落地后,短时间内势必大幅拉升百度搜索MAU,吸引到更多的用户,产生新的流量入口,进一步优化用户体验,有望为百度搜索带来商业价值的快速增长。除搜索之外,百度旗下百度智能云、自动驾驶、小度等业务,也将通过文心一言的能力重新被赋能。未来,文心一言将与小度进行集成,升级小度智能设备和服务。面向2B业务,百度智能云提供了四层人工智能全栈能力,从云基础设施到包含深度学习开源框架的深度学习平台,再到大模型和最终应用。此外,百度还计划将文心一言整合到Apollo智舱系列产品等汽车解决方案中,让智能汽车具备领先一代的人车交互体验。语言大模型是人工智能的里程碑,更是分水岭。随着文心一言的推出,或将为百度焕发全新的生命力。
▼ 欢迎进入粉丝群▼
加好友备注【进群】