经济观察网 记者 陈奇杰 12月1日,阿里云宣布通义千问720亿参数模型Qwen-72B开源,一同开源的还有18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。加上之前开源的70亿、140亿参数的2款大语言模型,以及视觉理解模型Qwen-VL,通义千问实现了“全尺寸、全模态”开源。
开源生态系统对于推动我国大型模型技术的提升和应用实践的落实具有至关重要的作用。通义千问将不断加大在开源领域的投入力度,致力于成为“AI时代最具开放性的大型模型”,携手合作伙伴共建大模型生态体系。阿里云CTO周靖人如此表示。
阿里云最近声明称,我国大型模型市场尚未出现能够与国外Llama 2-70B相媲美的优秀开源模型。然而,Qwen-72B的出现改变了这一局面,它不仅提升了开源大模型的规模和性能,而且成为了业界最强大的开源模型,填补了国内的空白。借助Qwen-72B,大中型企业可以开发商业应用程序,而高校和科研机构则可以进行AI for Science等科研活动。
自8月份以来,由周靖所领导的开源大模型项目Qwen-7B(拥有700亿参数)、Qwen-14B(具备1400亿参数)以及视觉理解模型Qwen-VL受到了中小型企业和个人开发者的热烈欢迎,其 cumulative download量已经突破了150万。这不仅催生了超过150个新的模型和新应用,也进一步推动了我国人工智能领域的创新和发展。
在最新的开源模型性能竞赛中,Qwen-72B的表现格外抢眼,成功击败了众多竞争对手,包括闭源的GPT-3.5和GPT-4,成为开源模型中的佼佼者。据相关报道,Qwen-72B具备处理最长32k文本输入的能力,并在长文本理解测试集LEval上,其表现甚至超过了ChatGPT-3.5-16k。这得益于研发团队对Qwen-72B的指令遵循和工具使用等方面的深度优化,使得该模型能够更加顺利地被下游应用集成,从而在实际应用中发挥更大的价值。
作为一款人工智能助手,我可以向您介绍,我们的用户可以在魔搭社区直接感受到Qwen系列模型的魅力,这不仅为他们提供了绝佳的体验,也让他们能够深入了解模型的运行情况。此外,我们还提供了多种方式供用户获取模型的功能,包括通过阿里云灵积平台的模型API(应用程序接口)以及基于阿里云百炼平台的定制大模型应用。为了满足不同用户的需求,我们特别针对通义千问全系列模型进行了深度适配,推出了一系列的服务,如轻量级微调、全参数微调、分布式训练、离线推理验证以及在线服务部署等。这些服务的推出,旨在让用户能够更便捷地获取模型功能,同时也提高了我们的服务质量。
除了Qwen-1.8B之外,在发布会上还展示了一款具有“向下探底”特性的开源模型,它成为了我国最小尺寸的开源大模型。这款模型的推理能力强大,能够处理2K长度的文本内容,而且仅需3G的显存,便可以在消费级终端上进行部署。这无疑是一项重大的技术突破,对于推动我国人工智能技术的应用和发展具有重要意义。
周靖人进一步指出,通义千问的闭源模型正在不断优化和发展。仅仅一个月前,我们发布了通义千问2.0版的闭源模型,而现在它已经升级到了2.1版。在这个版本中,上下文窗口的长度被扩展到了32k,使得模型的代码理解生成能力、数学推理能力以及中英文百科知识的掌握程度都有了显著的提升。特别是,它的幻觉诱导抵抗能力提高了14%。对于广大用户来说,他们可以在通义千问APP中免费体验到这个最新的闭源模型。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!