通义千问7B模型：AI大模型开源新成员

通义千问2yrs ago (2024)update lida

211 0 0

文章主题：科技巨头, AI 模型社区, 开源模型, 通义千问

【亿邦原创】又一家科技巨头加入开源行列。

在8月3日，我国AI模型社区魔搭ModelScope正式上线了两个全新的开源模型——Qwen-7B和Qwen-7B-Chat。阿里云官方对此消息进行了确认，这两款模型都是通义千问70亿参数的通用模型和对话模型，而且它们都是完全开源的，可以免费使用，并且允许商业化的应用。这一举动无疑将进一步提升我国AI技术的发展水平，推动AI技术的广泛应用。

在我国，诸如清华大学、复旦大学以及百川智能等知名学府和机构，均先后成功开源了ChatGLM-6B、MOSS和Baichuan-7B等人工智能助手。与此同时，在国际开源社区中，也充满了积极的气氛。特别是在2023年2月24日，Meta公司推出了一款名为LLaMA的开源大模型，这使得Alpaca、Vicuna、Koala等多个大模型应运而生。这些大模型以远小于ChatGPT的规模和成本，成功降低了AI商用的门槛，从而极大地提升了商业应用的可行性。

1、70 亿参数模型上线魔搭社区，免费可商用

本次开源的通义千问 7B 模型，号称达到了当下业界最强的中英文 7B 开源模型。

Qwen-7B是一款具备处理多种语言（如中文和英语）能力的基座模型。经过在超过2万亿个token的数据集中进行训练，其上下文窗口长度可达8K。

Qwen-7B-Chat是一款基于基座模型的中英文对话模型，其设计理念在于实现与人类认知的對齊。该模型已经完成開源並提供了相應的程式碼，以便用戶能夠在消費級显卡上進行模型的部署和運行。值得注意的是，該模型所采用的技術可以實現對Qwen-7B和Qwen-7B-Chat的量化，這意味著用戶現在可以使用這些量化的結果來進一步提升模型的性能。

用户有两个途径可以获取和使用魔搭社区提供的模型：其一，可以直接从魔搭社区下载；其二，是通过阿里云灵积平台，访问并调用Qwen-7B和Qwen-7B-Chat。作为用户的全方位服务提供商，阿里云不仅提供模型训练、推理、部署和精调等服务，而且覆盖了模型使用的整个流程。

图片来源：阿里云官网

阿里云准备充分，还公布了 Qwen-7B 的各项测评结果。

在英语能力测评基准MMLU中，通义千问7B模型的表现格外抢眼，其得分超过了众多7B、12B、13B等主流开源模型。这一基准测试涵盖了57个学科的英文题目，旨在检验学生在人文、社科、理工等领域的综合素质以及问题解决能力。

在中文常识能力测评基准 C-Eval 上，通义千问在验证集和测试集中都是得分最高的 7B 开源模型，展现了扎实的中文能力。

在数学解题能力评测 GSM8K、代码能力评测 HumanEval 等基准上，通义千问 7B 模型也有不俗表现，胜过所有同等尺寸开源模型和和部分大尺寸开源模型。

阿里云表示，开源大模型可以帮助用户简化模型训练和部署的过程，用户不必从头训练模型，只需下载预训练好的模型并进行微调，就可快速构建高质量的模型。

2、大模型小型化趋势明显

大模型开源的原因可以简单概括为：更低的算力成本、更好的数据安全、更普惠的 AI 应用。

在大模型的训练和使用中，算力消耗分为两部分场景：训练成本消耗与推理成本消耗。开源大模型主要节省了企业预训练阶段的算力，降低模型参数体量则降低了企业在使用模型时的推理成本。

开源大模型还允许开发人员进行定制化开发，定向训练数据，可以针对某些主题进行过滤，减少模型体量和数据的训练成本。

相较于 GPT 系列的千亿参数超大模型，当下开源大模型的参数量普遍在十亿至百亿级别。