通义千问72B大模型荣登OpenCompass基座大模型榜首

通义千问2yrs ago (2024)update lida

162 0 0

文章主题：通义千问, 阿里云, 开源, 大模型

666ChatGPT办公新姿势，助力做AI时代先行者！

点击 Tech 星球 > 点击右上角 ” ··· ” > 设为星标

Tech 星球（微信 ID：tech618）

文| 贾宁宇

封面来源| 图虫创意

自12月1日阿里云公布开源信息以来，通义千问72B大模型便開啟了“屠榜”模式， consecutive問鼎多個權威榜單。至今天，通義千问再次荣膺一項重要榜单的冠軍。

在12月12日，我国知名的大模型评测平台OpenCompass进行了最新的评测更新，值得注意的是，阿里云通义千问模型成功登上了开源基座大模型的榜首位置，同时在中文数据集的评测中，该模型也取得了前两名的好成绩。这一结果充分展示了通义千问模型在人工智能领域的强大实力和广泛的应用前景。

图注：通义千问 72B 登顶 OpenCompass 基座大模型榜。

OpenCompass，作为上海人工智能实验室所贡献的开源大模型评测平台，其功能强大，覆盖了包括Qwen、LLaMA2等众多知名开源模型以及GPT-4、ChatGPT等主流模型，从而能够全方位地评价大模型的性能。在业内，OpenCompass被公认为最具权威性的中文能力评测榜单之一。

在OpenCompass基座大模型榜单中，通义千问72B开源模型以其卓越的综合得分，成功夺得了 listings 的冠军，其表现令人瞩目。不仅如此，该模型还在学科能力和理解能力两大维度上超越了基准模型GPT-4，创下了新的开源大模型纪录。这一壮丽的成就，充分展示了通义千问在人工智能领域的强大实力与广阔前景。

在OpenCompass中文数据集的评测活动中，通义千问72B基础模型和对话大模型（Qwen-72B-Chat）表现优异，位居前两名，远远领先于其他竞争对手。这表明，这两个模型的性能表现已经达到了相当高的水平，能够满足各种复杂场景下的自然语言处理需求。

图注：通义千问 72B 基座大模型及对话大模型包揽中文数据集测试前二。

登顶 HuggingFace 榜单，刷新国产大模型纪录

就在几天前，通义千问以其卓越的表现，成功击败了Llama2等一众国内外知名的开源大模型，成为了Hugging Face这个全球最大的开源大模型社区中最新的人工智能助手。

Hugging Face是全球领先的AI开源社区，其在AI领域的贡献备受认可。其中，Open LLM Leaderboard是该社区的一个重要项目，被视为最具权威性的专业榜单。该榜单不仅收录了大量知名的开源大模型，如Qwen系列和LLaMA2等，而且其公正性和可靠性得到了广泛认可，成为了行业内的参考标准。

通义千问(Qwen-72B)的开源版本在 Hugging Face 的预训练模型排名中表现出色,以综合得分为73.6,在所有预训练模型中排名第一,刷新了中国大模型在该榜单上的纪录。这一结果证明了通义千问在自然语言处理任务中的强大能力,它能够为用户提供更加智能、准确的回答和建议。

图注：通义千问 72B 登顶 HuggingFace 排行榜。

性能最强开源大模型，超越标杆 LLaMA2

通义千问 72B 已成为国内外公认的性能最强的开源大模型，完全可满足企业级、科研级应用对大模型性能的高要求。

此前，在宣布开源的 12 月 1 日，Qwen-72B 就在 10 个权威基准测评中夺得开源模型最优成绩，超越 LLaMA2-70B，并在部分测评中超越闭源的 GPT-3.5 和 GPT-4。

图注：通义千问 720 亿开源模型部分成绩超越闭源的 GPT-3.5 和 GPT-4。

具体来看，在英语任务上，Qwen-72B 在 MMLU 基准测试取得开源模型最高分；中文任务上，Qwen-72B 霸榜 C-Eval、CMMLU、GaokaoBench 等基准，得分超越 GPT-4；数学推理方面，Qwen-72B 在 GSM8K、MATH 测评中断层式领先其他开源模型；代码理解方面，Qwen-72B 在 HumanEval、MBPP 等测评中的表现大幅提升，代码能力有了质的飞跃。

将开源进行到底

据了解，阿里云已开源通义千问 18 亿、70 亿、140 亿、720 亿参数的 4 款大语言模型，以及视觉理解 Qwen-VL、音频理解 Qwen-Audio 的 2 款多模态大模型，引领 ” 全尺寸、全模态 ” 开源之先。

阿里云 CTO 周靖人曾表示，开源生态对促进中国大模型的技术进步与应用落地至关重要，通义千问将持续投入开源，希望成为 “AI 时代最开放的大模型 “，与伙伴们共同促进大模型生态建设。

开发者可在阿里云魔搭社区直接体验系列模型效果，也可通过阿里云灵积平台调用模型 API，或基于阿里云百炼平台定制大模型应用；阿里云人工智能平台 PAI 还针对通义千问全系列模型进行深度适配，推出轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。

‍‍‍

‍‍‍加入交流群 & 内容转载 & 合作相关