当下正处于大模型应用落地的前夜,这是一场从底层基础设施即服务、平台即服务,再到模型即服务(MaaS)、软件即服务的全方位竞争。
文|徐鑫 赵艳秋
编|石兆
“人工智能技术全面爆发,新一代技术出现,和可能带来对各行各业颠覆性影响及机会,让我们看到了一个数字化时代后,全新的智能化时代的到来。”
躬身入局,进入云战场后的第一次峰会上,阿里巴巴集团董事会主席兼CEO、阿里云智能集团CEO张勇将阿里云的发展阶段及未来的方向定调——全面拥抱智能化时代。
阿里几天前开始邀测的“通义千问”大语言模型无疑是峰会的焦点。
张勇把大语言模型带来的AI普及和算力普惠一起视作阿里云对外提供的基础设施,也是阿里云面向智能化时代的核心战略。从某种程度上看,通义千问不仅仅属于阿里,任何企业都可以在云上获取它的能力。
去年阿里首次提及的MaaS(Model as a Service)在峰会上被重申,未来会与阿里云此前的AI基础设施(IaaS 、PaaS)一起,共同构成新的云计算架构和基础设施。
01
智能化时代大模型的角色
2023阿里云峰会上,张勇用不短的篇幅回顾阿里云的发展历程。
张勇提了两大断言:
在过去的数字化浪潮里,一批新型互联网公司利用数字技术,获得了发展的机会,让各行各业看到数字化的力量。之后各行各业争先恐后开始进行数字化变革,走上了产业数字化的大道。
智能化时代,所有的企业,包括阿里巴巴在内,则都处于同一个起跑线上。他认为,所有行业、所有应用、所有服务都值得基于新型人工智能技术重做一遍,在带来创造性客户体验的同时,生产范式、工作范式、生活范式也将发生变化。
基于这两大断言,张勇提出面向未来的目标——作为一家云计算和人工智能高度结合的云智能公司,阿里云未来要做到两点:让算力更普惠,让AI更普及。
几天前开放邀测的“通义千问”通用大语言模型扮演了“让AI更普及”的重要推动角色。
峰会的场子非常大,不少阿里的合作伙伴都是专程来看开始邀测的“通义千问”大模型。
数智前线获悉,该模型是去年9月,阿里发布的“通义”模型家族的新成员。此前,已亮相的模型包括通义M6、通义-AliceMind、通义-视觉模型,这些模型均是预训练模型,目标是去构建一个接近于人类智慧的智能模型,可以在之上再训练行业模型,并已应用到200多个业务场景。
阿里并未公布“通义千问”的参数规模。阿里云智能集团CTO周靖人说,虽然参数规模大代表模型的理解能力或容量等各个方面有更多的潜质,但参数并不是唯一的指标,不是说参数规模越大,模型一定就好。
“通义千问”是一个超大规模的语言模型, 能够了解人类指令,与人类进行多轮交互,同时也融入了多模态知识理解。
在ChatGPT爆火后,人们了解到大模型有几大技术分支,包括Open AI的GPT,谷歌的Bert和T5,但周靖人表示,阿里大模型一直坚持自己的技术路径。
“科技进步的一个魅力是大家有不同的尝试、不同的方向。”周靖人称,“其实我们在做模型训练、数据处理时,往往在一个细节上有很多选项,我们也是在多条路径上不断探索,才能不断去提升对整个问题的理解,才有利于我们下一步的创新和突破。”
他坦诚,ChatGPT在很多方面都处于一个领先地位,但通义千问并非终态,希望能贡献自己的创新。
数智前线观察,阿里云正在尝试打通大模型行业落地的通路。此前,大模型落地没有现成的路径。
张勇透露,接下来,阿里所有App,包括天猫、淘宝、钉钉、高德等未来都会接入通义千问。大会上,几个小视频演示了结合通义千问的未来应用,比如,通过多轮对话,让智能助手根据冰箱现有食材制定当日菜谱,或根据家人朋友信息策划生日Party和购物清单……大会当日,钉钉和天猫精灵公众号,也分别发出未来新功能Demo。
会议期间,阿里云公布与多家企业展开合作探索,首批企业有OPPO安第斯智能云、中兴通讯、吉利汽车、智己汽车、奇瑞新能源、毫末智行、太古可口可乐、波司登、掌阅科技等。
一位阿里云人士告诉数智前线,上述企业中的一些正在通过大模型升级语音助手,毕竟原来的智能助手在语义理解、内容生成和交互上都太过机械、简单。但周靖人不想就此框定这些探索。他告诉数智前线,业务场景为大模型“留出了无限想象空间”,快速发展起来的模型,与快速演进的业务场景,有极大的碰撞空间。
一位与会的软件开发人员告诉数智前线,阿里云期望他们能够基于大模型,到行业中去开拓更多的应用。另一位与会从事商业分析软件的人士称,原来商业分析要清洗标注数据,有了大模型,这些数据预处理都不需要了,他来了解工具软件如何与大模型结合。多种大模型的可能性已经开启。
02
企业专属大模型和MaaS新范式
在此次云峰会期间,周靖人花了大量篇幅,介绍基于通义千问的“企业专属大模型”。此前,关于大模型在企业中怎么用,是近几个月业界最关注的话题。
多位企业人士告诉数智前线,传统人工智能系统,比如上一代的NLP(自然语言处理),经常达不到业务部门的要求。通过ChatGPT,大家看到了大模型的潜力,它能大幅提高产品能力,但真正应用还需要等待国内大模型起来,考虑有没有改造、灵活应用和部署的机会。
根据周靖人的介绍,企业可以在通义千问大模型基础之上,结合自己的场景、知识体系和特殊诉求,产生一个企业的专属模型。
基于业界关于大模型落地的需求,企业专属大模型从构建、部署和应用都有一定的设计。
企业对数据安全非常关注。近期,三星被曝员工在使用ChatGPT时,泄露了其芯片机密数据。专属大模型在模型训练和使用中,需要解决这一问题。为此,阿里云提供每个企业专属的、安全隔离的数据空间。
这也给行业带来了新范式。传统人工智能项目七八成的时间和成本,都花在了数据上,仅数据标注动辄要几千万甚至上亿元。而在阿里云去做专属模型的训练,企业不需要对数据做预处理,如清洗和标注。
周靖人称,无论是PPT、PDF,还是Word、手册,亦或是图片、视频,包括企业的知识图谱、已有数据库,都可授权放入专属空间,阿里云会通过多模态能力,学习、提炼知识体系,与通义千问结合在一起。
“关于数据是不是完全不需要标注,这不是绝对的。”周靖人进一步告诉数智前线,“因为定制专属大模型有多种方式。但整体上,如何把通用大模型的能力跟专属的知识结合在一起,是一个关键点。我们要提供一个更有效的产品体系。”
由于国内与海外使用习惯不同,很多大中企业都在使用私有云。他们关注大模型和私有云的结合情况。数智前线获悉,模型训练阿里云首推了公共云。“只有这样才是最有效的,因为通义千问版本每周都在迭代,而且公共云的弹性算力,也能更好支撑训练。”周靖人解释说。在模型生产完成后,将有多种部署、调用方式,可一键部署到阿里的公共云上,针对特殊行业的要求,也会使用专有云方式。
在企业专属大模型的使用方式上,周靖人介绍目前有几类:一类可通过对话方式,与模型进行交互;一类通过定制化开发,集成到企业开发的一些网页中;一类通过API调用,集成在企业自身的开发环境里。也有行业人士认为,大模型有无限可能,在应用方式上可以更创新。
“不限制使用方式。”周靖人称,目标是真正把模型的能力在场景中拓宽,产生更大的业务价值。
周靖人称,今天云计算已变成Infrastructure as a service(IaaS)、Platform as a service(PaaS)、Model as a service(MaaS)、Software as a service(SaaS)这样一个新架构。阿里云在按照这个理念,布局技术架构以及相关产品体系。
要把大模型用起来,并非易事。比如,大模型层出不穷,到底要采用什么样的模型来解决实际问题?模型调用目前也没有规范,用户需要考虑技术细节。
“Model as a service不是一句空话,需要围绕模型的全链路生命周期,从模型的查询、二次开发,再到使用,形成一系列的产品,将门槛降得更低,使用更便捷。希望甚至小学生也可以快速调用某一款模型。”周靖人说,“只有这样才能形成一个完整的Model as a service生态。”
去年9月阿里云建立的摩搭社区,已累计有超过上百万开发者,超过了将近1600万模型的下载和使用。同时,整个社区从最开始的300多个模型到现在800多个模型,模型提供方包括达摩院、创业公司和科研院所。
03
大模型算力成本或将降到1/100
今年以来,大模型正在变成巨头企业、明星创业团队以及老牌人工智能公司争相投入的竞赛场。
在大模型建设领域,业界的共识是,ChatGPT的惊艳表现背后需要巨大算力在支撑。华西证券的报告指出,训练一次1746亿参数的GPT-3模型,需要的算力约为3640PFlops/天,单次训练费用约460万美元,而GPT-4对算力的需求则更大。
在训练之外,要支撑一款风靡全球的“应用”,仍需要巨大的算力投入。国联证券报告显示,为满足ChatGPT今年1月份千万级用户的咨询量,投入成本约为8亿美元,对应约4000台服务器。
此前行业内还有一个提法称“1万张英伟达的GPU是建设大模型的入场券”,阿里云也是国内GPU大户。此次“通义千问”大模型让业界进一步关注,阿里云底层算力的情况。
“我们能够做出通义千问这样的模型,与阿里云本身云智能的计算能力密不可分。”周靖人称,“今天无论ChatGPT还是通义千问这类模型的训练,是一个全方位的能力展现。”
周靖人澄清了一个概念,虽然训练大模型需要大量的GPU卡,但这绝对不是GPU卡简单堆砌的问题。在此之上,几千上万张GPU之间如何连接和协作,从而构成一个高吞吐量低延迟、高效存储的网络,都是智算基础设施的重要环节。
具体来说,在网络层面,需要通过临近的计算集群,通过RDMA网络,自研网络的协议,能够实现高吞吐、低延迟的网络连接。
同时,模型训练的每一个环节需要很多梯度的传导,网络效率的优化对于计算集群的效率至关重要,因此也要有非常完善的通讯库,能够智能化地调度、优化路径,减少网络的拥塞。
每一轮模型的迭代和计算还需要去学习大量的数据。而这都需要高效的存储系统。这个高效存储系统还必须和计算集群结合在一起,否则会导致数据读取延迟。
除了这些硬件方面的能力,还有软件层面的能力建设。上万台机器共同处理编译任务时,如何实现模型并行化训练,也是挑战。只有任务被均衡分解到所有设备上,才能通过增加机器,实现算力的线性扩张,让整个集群共同完成训练和优化任务。
数智前线获悉,阿里这一套从实战中打磨出的系统,是此次能够快速推出通义千问的核心基础。此前阿里发布M6大模型是从百亿的参数规模开始,达到超过10万亿参数规模,训练过程中解决了很多底层系统、调度和编译的问题,才经受住超大规模模型训练的考验。
某种程度而言,此次通义千问推出,也是阿里在计算机科学全方位技术的一次综合展现,不单在模型算法层,还包含了背后云计算方方面面的力量支撑。
此前,行业内已经观察到,人工智能在云计算市场的分量越来越重。今年1月IDC发布的2022上半年中国AI云市场报告显示,AI公有云市场正在快速增长,同比增长了57%,高于中国公有云市场的平均增速。
新一波AI浪潮和智能化浪潮下,AI训练和推理带来的算力需求重新搅动了云计算市场。阿里云也希望在智能化时代继续扮演引领角色,“让算力更普惠”是阿里云在研发和推出大模型,“让AI更普及”之外的另一条腿。
在云峰会上,阿里云宣布大幅度降价,同时开放核心产品的免费试用。今年,阿里云将推出一款名为通用Universal实例的产品,进一步屏蔽了传统IT的硬件参数,为中小企业和开发者提供普惠的算力。通用Universal实例的价格有大幅降低,对比上一代主售实例最高可下降40%。
降价背后有阿里云一系列核心技术的支撑。通过技术进步释放红利,推动规模化经营的正循环。过去十年,阿里云提供的算力成本下降了80%,存储成本下降了近9成。
张勇还提到一个具体的数字,未来无论是模型训练还是云上的模型对外提供服务,阿里云希望将算力成本降到十分之一乃至百分之一。
当下正处于大模型应用落地的前夜,正如大模型研发是一场“数据+算力+算法”的全方位竞争一样,未来云厂商的竞争也正在开辟MaaS新战场。
由于人工智能的新一轮爆发,云厂商正进入新一轮增长周期。如何让算力普惠,让AI普及,以阿里云为代表的头部云厂商们已经率先开启了新一轮赛跑。