GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

文心一言6mos agoupdate lida
30 0 0

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

大模型

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

在2023年的“百模大战”中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

全文共计1005字,预计阅读时间3分钟来源| 清华大学人工智能研究院(转载请注明来源)编辑| 数据君尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。

近期,SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中,SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型,SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。

报告主要结论● 整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。● 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。● 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。大模型能力迁移&SuperBench自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下5个阶段:2018年-2021年:语义评测阶段早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、 GPT、T5等。2021年-2023年:代码评测阶段

随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。

2022年-2023年:对齐评测阶段随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。2023年-2024年:智能体评测阶段基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。2023年-future:安全评测阶段随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

报告部分内容如下

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

获取原文

后台输入:0420 可获取报告原文,有效期3天。

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

数据观·知识服务平台』

扫码获取最新行业研报信息

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

▐ 风口洞察

数字人民币该怎么赚钱?

盘点 | 31省市数字经济“成绩单”

中国数字化转型政策汇编·省市篇

数字化标杆:中国31家“灯塔工厂”案例集

2022年头号风口:中国“东数西算”市场洞察

中国数字化转型政策汇编(2021-2022)

新一轮数据“掘金潮”:大数据交易进入2.0时代

政策利好!迎万亿规模市场!数字政府概念站上风口

▐ 行业报告

中国大模型落地应用案例集(2023)

中国大模型名录汇编(2023)

2024数字科技前沿应用趋势

2024 年“十大突破性技术”榜单

中国算力发展观察报告

▐ 国际要闻

13家中企被美列入“未经验证清单”

字节跳动被 OpenAI 封禁?回应来了

《时代》杂志2023年AI最佳发明

谷歌 Gemini 与 GPT-4 哪家强?

美商务部将42家中企列入出实体清单政策新规

中国首部大模型监管法规发布

12部门联合印发!工业互联网“三个第一”政策来了

突破10000亿!浙江发布AI发展指导意见110个!第二批大模型算法备案信息公布全文+图解 | 国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》

▐ 数据观出品

31省市数字经济发展规划(2024版)

关于人工智能的60条趋势预测

25省市/地方公布元宇宙路线图

31省市数字化转型规划(2023)

31省市数字政府规划(2023)

18省市公布『数据条例』

31省市数字政府“十四五”规划重点

31省市数据要素“十四五”规划重点

31省市数字经济“十四五”规划路线图

25省市/地方公布元宇宙路线图

31省市“专精特新”政策汇总

GPT-4、KimiChat、文心一言……14个国内外热门大模型综合能力评测报告出炉

© Copyright notes

Related posts

No comments

No comments...