全息科技专注于分享GPT行业动态,为广大朋友提供最新资讯,欢迎关注!
在大模型激战的时刻,8月3日周四,阿里云正式开源了70亿参数的通义千问模型,其中包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。
这两款模型已上线国内首个“模型即服务”开放平台——魔搭社区(https://modelscope.cn/home)
用户可以免费使用、商用、下载,并且支持在消费级显卡上部署和运行模型。
阿里云为用户提供了一站式服务,包括模型训练、推理、部署、精调等。
Qwen-7B使用超过2.2万亿tokens的去重及过滤数据进行预训练,成为支持中、英等多种语言的基座模型,其上下文窗口长度高达8k。
模型囊括了高质量中、英、多语言、代码、数学等数据,涵盖全网文本、百科、书籍、代码、数学等各个领域。
1、中文评测
C-Eval测试集上,Qwen-7B-Chat模型的zero-shot准确率结果如下:
2、英文评测
MMLU评测集上,Qwen-7B-Chat模型的zero-shot准确率如下,效果同样在同类对齐模型中同样表现较优。
3、代码评测
Qwen-7B-Chat在HumanEval的zero-shot Pass@1效果如下:
4、数学评测
在评测数学能力的GSM8K上,Qwen-7B-Chat的准确率结果如下:
5、长序列评测
通过NTK插值,LogN注意力缩放可以扩展Qwen-7B-Chat的上下文长度。在长文本摘要数据集VCSUM上(文本平均长度在15K左右),Qwen-7B-Chat的Rouge-L结果如下:
6、工具使用能力的评测
千问支持通过 ReAct Prompting 调用插件/工具/API。ReAct 也是 LangChain 框架采用的主要方式之一。在即将开源的、用于评估工具使用能力的自建评测基准上,千问的表现如下:
本文素材来源于魔塔社区,若有侵权请联系删除
END
如果您对 GPT 有更多的疑问,或者您想与我们分享任何有关 GPT 的观点,请用微信扫下方二维码进入“AI超创者社群”。
点这里?关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」,每日与你来相见
© Copyright notes
文章版权归作者所有,未经允许请勿转载。
Related posts
No comments...