阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

通义千问10mos agoupdate lida
75 0 0

文章主题:电影, 音乐, 美食

666ChatGPT办公新姿势,助力做AI时代先行者!

通义千问开源:大模型时代“虹吸效应”的开始

文 | 子弹财经 张樵

编辑 | 闪电

在12月1日的阿里云发布会上,一项重大事件发生了,那就是“业界最强开源大模型”通义千问720亿参数模型Qwen-72B的正式发布时间。此外,通义千问还一并开源了18亿参数模型Qwen-1.8B以及音频大模型Qwen-Audio。这一系列的开源行动,无疑展现了我国在人工智能领域的强大实力与雄心。

如今,通义千问已成功开源了四款不同规模的大语言模型,它们分别是18亿、70亿、140亿和720亿参数,同时还包括视觉理解和音频理解两款多模态大模型。这些成果的实现标志着通义千问已经成功地达到了“全尺寸、全模态”的开源目标。

这场发布会的独特性不仅仅在于其受到广泛关注,更关键的是,从发布的信息中我们可以看出,关于今年以来的“百模大战”胜负以及大模型路径的争论,已经有了明确的答案。这个答案就是,在阿里云“无开放,不生态”的策略推动下,通义千问作为我国应用最广泛、落地最深处的大模型,期望能够延续阿里云在“前AI时代”所秉持的创新底座角色,通过AI底座的开放性来培育上层生态的繁荣发展。

1、阿里云的开放逻辑

阿里云并非第一次在大模型开源领域采取行动。作为我国率先自研并开放大型模型的领军企业,阿里云期望通过开源的方式,使大量的中小企业以及AI开发者能够尽早、尽快地应用到通义千问模型。

在今年8月份,阿里巴巴旗下的阿里云已经成功地将通义千问70亿参数模型Qwen-7B进行了开源发布。紧接着在今年的9月份,通义千问140亿参数模型Qwen-14B以及其对应的对话模型Qwen-14B-Chat也相继实现了免费商用的目标。这一系列成果的取得,充分展示了我国人工智能领域的技术实力与创新速度。

在这次发布会上,阿里云的CTO周靖人强调,开源生态系统对于推动我国大型模型技术的提升和应用实践的落实具有至关重要的作用。通义千问将继续致力于开源领域,期望能够成为“AI时代最具开放性的大型模型”,与合作伙伴们共同努力,推动大型模型生态系统的建设。

大模型的发展前景无需过多赘述。然而,如同基础软件产业在变革和发展过程中的多样性一样,大模型也采取了开源和闭源两种不同的发展途径,类似于智能手机领域中“iOS”与“Android”之间的竞争关系。这种多元化的策略不仅使得大模型能够更好地适应不同的应用场景,还为其在未来市场竞争中脱颖而出提供了有力保障。

在全球范围内,我们看到的是OpenAI采用了封闭式的发展策略,其仅有的产品应用就是ChatGPT,而并未有任何具体的产品推出。然而,他们却通过向外界提供API以及投资等方式,成功地推动了整个生态系统的繁荣发展。与此同时,Meta旗下的Llama2大模型则选择了开放式的路线,利用开源生态系统来加速Llama的迭代和升级过程。在我国,诸如BAT这样的互联网巨头,腾讯云和百度云所采用的大模型发展策略则是封闭式,而阿里云则选择了开放式的道路。

因此, Industry 进而分为两大阵营。对于倡导闭源理念的人来说,大型模型闭源的优势在于它能生成更成熟、稳定的产品。用户只需支付费用,便可立即应用这些经过检验的产品。此外,闭源模式还能确保获得更为专业的技术支持和售后服务。

大模型开源的拥趸则认为,开源能够帮助用户简化模型训练和部署的过程,使得用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型或进行相应的应用开发。

“大模型究竟是开源更好还是闭源更好,实际上与‘先生态,后商业’还是‘先商业,后生态’的这个问题有关”,大模型行业人士告诉「界面新闻·子弹财经」,按照以往科技发展的规律来看,头部的技术服务商,一般都会先建立生态、落地应用,然后再讲商业模式,现在大模型仍然遵循着这个规律。

如近期周靖人就曾说过,“大模型这部分应该先注重生态,然后再注重商业化,而不是说一开始就过度围绕商业化。”而建立生态的前提就是开放。

在今年的云栖大会上,阿里巴巴集团董事会主席蔡崇信反复强调的一个关键词就是“开放”:“我们坚信,不开放就没有生态,没有生态就没有未来。同时,我们要始终攀登技术高峰,只有站在更先进、更稳定的技术能力之上,才有更大的开放底气。”

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

图 / 云栖大会

与其他头部厂商不同,阿里一直就有技术开放的基因,例如,操作系统、云原生、数据库、大数据等等,在这些领域,阿里都有自主开源的项目。

此外,阿里在去年11月推出了AI开源社区“魔搭”。阿里的数据显示,中国几乎所有的大模型头部研发机构都已将“魔搭”作为模型开源的首发平台。经过一年的发展,“魔搭”现已汇聚了280万开发者、2300多个优质模型,模型下载量超过1亿。

不仅如此,阿里云充足的算力资源,也是其选择开源的重要原因。云和AI都离不开算力,特别是大模型,对于算力有着更高的要求。阿里的优势本就在云计算,数据、算力和存储这些关键的底层资源。

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

从阿里云今年以来的发布和展示来看,阿里云已具有全栈化AI能力,还有更加完整的通义大模型系列,这样的能力体系背后,还是离不开算力。这也是大模型时代,MaaS层会成为头部云服务商最重要的业务环节的原因。

在国外,如微软这样的云服务巨头,也已扩大了开源模型的MaaS服务,他们也是依靠连接产业链的上、中、下游,才形成了规模化和平台化的生态。

阿里云未来的角色同样如此,以云平台为基础,将大模型的构建和应用让给行业,用以连接众多的企业和个人开发者,从而构建新的生态。

自此,阿里云大模型的开源逻辑更加清晰,即通过开源的方式提供技术产品,降低门槛,推动技术普惠,为企业客户到个人开发者提供多元化、全方位的技术服务。在通义千问的基础上创建的大模型、小模型越丰富,AI生态就越繁荣,阿里云的前景也会越广阔。

2、“站在巨人肩上”

据介绍,此次最新开源的通义千问Qwen-72B有高性能、高可控、高性价比等特点,可为业界提供不亚于商业闭源大模型的选择。

从性能数据来看,Qwen-72B在MMLU、AGIEval等10个权威基准测评中,都拿到了开源模型的最优成绩,成为性能最强的开源模型,甚至超越了开源标杆Llama 2-70B和大部分商用闭源模型(部分成绩超越GPT-3.5和GPT-4)。

基于Qwen-72B,大中型企业足以开发各类商业应用,高校、科研院所则能够开展AI for Science等科研工作。

从18亿、70亿、140亿到720亿参数规模,通义千问不仅成为业界首个“全尺寸开源”的大模型,而且广受外界欢迎。

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

据介绍,此前开源的通义千问系列模型先后登上HuggingFace、Github大模型榜单,得到了很多企业客户和个人开发者的青睐,累计下载量已超过150万,催生出150多款新模型、新应用。用户可在“魔搭”社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。

据了解,目前,从企业/高校到创业公司,再到个人开发者,基于通义千问开发强大的AI平台和应用,实现了业务的迅速成长的例子比比皆是。

华东理工大学的X-D Lab(心动实验室),专注于社会计算和心理情感领域的AI应用开发。基于开源的通义千问,团队开发出了心理健康大模型MindChat(漫谈),主要提供心理抚慰、心理测评等服务、医疗健康大模型Sunsimiao(孙思邈),主要提供一些用药和养生建议、教育/考试大模型GradChat(锦鲤),主要为学生提供就业、升学、出国留学等方面的指导。

X-D Lab团队成员表示,从可持续性、生态和场景适配这三个维度判断和比较,通义千问是最合适的选择。“此前有一家企业找我们合作,我们只用20万tokens的数据微调了Qwen基座模型,就得到了比另一家用百万级数据微调的模型更好的效果。这证明了通义千问基座模型的能力,也证明了我们有很好的行业know-how。”

“我对72B的模型抱有非常大的期待,好奇72B在我们领域中的能力极限值。高校计算资源有限,我们可能不会用这么大参数的模型直接做推理服务,但可能基于Qwen-72B做些学术探索,包括利用联邦学习算法处理数据,也希望72B的推理成本能得到很好的控制。”

对于初创企业有鹿机器人而言,大模型的开源十分关键。该公司专注于大模型+具身智能领域,致力于让每一台专业设备都拥有智能性。目前,有鹿机器人在路面清洁机器人中集成了Qwen-7B,使机器人能以自然语言与用户进行实时交互,理解用户提出的需求,完成用户布置的任务。

有鹿机器人创始人、CEO陈俊波表示:“市面上能找到的大模型,我们都做过实验,最后选了通义千问,原因在于,第一,它是目前至少在中文领域能找到的智能性表现最好的开源大模型之一;第二,它提供了非常方便的工具链,可以在我们自己的数据上快速地去做finetune和各种各样的实验;第三,它提供了量化模型,量化前和量化后基本上没有掉点,这对我们非常有吸引力,因为我们需要把大模型部署在嵌入式设备上;最后,通义千问的服务非常好,我们有任何需求都能快速响应。”

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

图 / 有鹿机器人创始人、CEO陈俊波

在众多个人开发者的眼中,通义千问代表着各种可能性。在电力行业就职的土土,主要负责新型电力系统、综合能源的宏观分析、规划研究和前期优化工作。他利用通义千问开源模型搭建文档问答相关应用,想要探索大模型应用于电力领域的各种可能性。

“我用Qwen做基于私有知识库的检索问答类应用,场景很特殊,经常需要从几十万甚至上百万字的文档中查找内容,给定一个英文文档,告诉大模型需要查找的内容,请大模型根据文档目录回答,在哪个目录项下可以找到答案。”土土介绍道。

专业领域的文档检索和文档解读任务,对内容准确性和逻辑严谨性有很高要求。在试过的几款开源模型中,通义千问是最好的,不仅回答准确,而且没有那些稀奇古怪的bug。“通义千问14B的开源模型表现已经非常好,72B就更让人期待了,希望72B能在逻辑推理方面再往前走一步。那样的话,再加点程序手段,基本就能摆平文档检索和解读任务。做好了基础的,再把难度逐步提升,比如按照这个行业的国家级标准来要求大模型。”

目前,基于Qwen的行业模型如今涉及各行各业,包括医疗、教育、自动假设、计算机等等。

有开发者兴奋地表示,除了开源大模型,最新举办的“通义千问AI挑战赛”也有着很大的吸引力,既可以尝试通义千问大模型的微调训练,探索开源模型的代码能力上限,也能够基于通义千问大模型和魔搭社区的Agent-Builder框架开发新一代AI应用,“有一种站在巨人肩上,不惧挑战、收获成长的感觉。”

3、大模型“起风了”

在今年11月举办的世界互联网大会乌镇峰会上,阿里巴巴集团CEO吴泳铭的一番话,让「界面新闻·子弹财经」印象深刻:

“AI技术将从根本上改变知识迭代和社会协同的方式,由此驱动的发展加速度将远远超越我们的想象。”

“AI与云计算的深度融合,将成为云计算迭代的重要动力。‘AI+云计算’的双轮驱动,是阿里云面向未来、支撑AI基础设施的底层能力。”

“阿里巴巴将立足‘科技平台企业’定位,打造更加扎实的基础设施底座,不断加大开放和开源力度,和广大开发者一起营造繁荣的AI生态。”

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

这些话很好地向外界阐释了阿里的过去、现在和未来:此前,阿里的业务涵盖物流、支付、交易、生产等多个环节,为这些环节提供数字化商业服务。在AI已成为中国数字经济和产业创新最重要驱动力的背景下,阿里变成了一家“科技平台企业”,将为各行各业提供基础设施服务。

他们的完整技术体系和基础设施构建能力,正在以开源和平台服务的方式向外界全面开放,不仅提供稳定、高效的AI基础服务体系,还将创建开放、繁荣的AI生态,借此希望为全社会打造坚实的AI底座,实现自身的升级,也顺应时代的大趋势。

阿里云也已经实实在在地获得了大模型带来的巨大收益。国内超过50%的头部大模型企业都跑在阿里云上。随着智能化时代的到来,AI将成为新的生产力,阿里的不同业务、不同场景都在试水大模型,用以提升产品体验与经营效率,打造新的增长引擎。

反过来说,大模型也在驱动着阿里云。周靖人就曾表示,“基于通义千问大模型,我们对云上产品也进行了AI化改造,超过30款云产品具备了大模型的能力,带来了开发效率的大幅提升。”这些信息也充分说明了,阿里云要打造AI时代最开放的云的原因。

如今,从底层算力到AI平台再到模型服务,阿里云正在持续加大研发投入,形成了三种新的打法,即基础设施、开源路线、开放平台,再加上IaaS层和PaaS层的迭代,这些都有利于聚拢客户、开发者和ISV,也有利于树立典型的标杆案例。

这些优势正在建造阿里云乃至阿里全新的增长飞轮。当国内的开源大模型“起风了”的时候,阿里云就是那个“风向标”。

AI算力底座、丰富且开源的产品、多元的应用场景、通过社区不断扩大的开发者规模、工具链及智能化平台、开放的创新生态……阿里云通过大模型开源,正在形成一条具有竞争力的“高质量开源基础大模型-大模型优化-AI应用创新”的商业化落地发展路径,这对于国内大模型产业应用的落地、创新有着非常重大的影响,势必推动国内大模型成熟应用的规模化出现。

就像中国工程院院士、阿里云创始人王坚所说,AI和云计算的结合,将带来云计算的第三次浪潮,大模型的开源和普惠,也将改变云计算的技术、产品和服务模式,云服务商未来的角色和定位,也会因大模型而产生变化。

美编 | 倩倩

审核 | 颂文返回搜狐,查看更多

责任编辑:

阿里云发布强有力开源大模型:通义千问720亿参数模型Qwen-72B

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

© Copyright notes

Related posts

No comments

No comments...