大模型
在2023年的“百模大战”中,众多实践者推出了各类模型,这些模型有的是原创的,有的是针对开源模型进行微调的;有些是通用的,有些则是行业特定的。如何能合理地评价这些模型的能力,成为关键问题。
全文共计1005字,预计阅读时间3分钟来源| 清华大学人工智能研究院(转载请注明来源)编辑| 数据君尽管国内外存在多个模型能力评测榜单,但它们的质量参差不齐,排名差异显著,这主要是因为评测数据和测试方法尚不成熟和科学。为提供客观、科学的评测标准,清华大学基础模型研究中心联合中关村实验室研制了SuperBench大模型综合能力评测框架,旨在推动大模型技术、应用和生态的健康发展。
近期,SuperBench团队发布了2024年3月的《SuperBench大模型综合能力评测报告》。在此评测中,SuperBench团队选定了GPT-4 Turbo、GPT-4 网页版、Claude-3、GLM-4、Baichuan3 网页版、KimiChat 网页版、Abab6、文心一言4.0、通义干问2.1、qwen1.5-72b-chat、qwen1.5-14b-chat、讯飞星火3.5、云雀大模型、Yi-34b-chat等14个海内外具有代表性的模型进行测试。对于闭源模型,SuperBench团队选取API和网页两种调用模式中得分较高的一种进行评测。
报告主要结论● 整体来说,GPT-4系列模型和Claude-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。● 国外大模型中,GPT-4系列模型表现稳定,Claude-3也展现了较强的综合实力,在语义理解和作为智能体两项能力评测中更是获得了榜首,跻身国际一流模型。● 国内大模型中,GLM-4和文心一言4.0在本次评测中表现最好,为国内头部模型;通义千问2.1、Abab6、moonshot网页版以及qwen1.5-72b-chat紧随其后,在部分能力评测中亦有不俗表现;但是国内大模型对比国际一流模型在代码编写、作为智能体两个能力上依然有较大差距,国内模型仍需努力。大模型能力迁移&SuperBench自大语言模型诞生之初,评测便成为大模型研究中不可或缺的一部分。随着大模型研究的发展,对其性能重点的研究也在不断迁移。根据我们的研究,大模型能力评测大概经历如下5个阶段:2018年-2021年:语义评测阶段早期的语言模型主要关注自然语言的理解任务 (e.g. 分词、词性标注、句法分析、信息抽取),相关评测主要考察语言模型对自然语言的语义理解能力。代表工作:BERT、 GPT、T5等。2021年-2023年:代码评测阶段
随着语言模型能力的增强,更具应用价值的代码模型逐渐出现。研究人员发现,基于代码生成任务训练的模型在测试中展现出更强的逻辑推理能力,代码模型成为研究热点。代表工作:Codex、CodeLLaMa、CodeGeeX等。
2022年-2023年:对齐评测阶段随着大模型在各领域的广泛应用,研究人员发现续写式的训练方式与指令式的应用方式之间存在差异,理解人类指令、对齐人类偏好逐渐成为大模型训练优化的关键目标之一。对齐好的模型能够准确理解并响应用户的意图,为大模型的广泛应用奠定了基础。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM等。2023年-2024年:智能体评测阶段基于指令遵从和偏好对齐的能力,大模型作为智能中枢对复杂任务进行拆解、规划、决策和执行的能力逐渐被发掘。大模型作为智能体解决实际问题也被视为迈向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen等。2023年-future:安全评测阶段随着模型能力的提升,对模型安全性和价值观的评估、监管与强化逐渐成为研究人员关注的重点。加强对潜在风险的研判,确保大模型的可控、可靠和可信,是未来“AI 可持续发展”的关键问题。
报告部分内容如下
获取原文
后台输入:0420 可获取报告原文,有效期3天。
『数据观·知识服务平台』
扫码获取最新行业研报及信息
▐ 风口洞察
▐ 行业报告
▐ 国际要闻
美商务部将42家中企列入出实体清单▐政策新规
突破10000亿!浙江发布AI发展指导意见110个!第二批大模型算法备案信息公布全文+图解 | 国家数据局等17部门联合印发《“数据要素×”三年行动计划(2024—2026年)》
▐ 数据观出品