SuperClue榜单揭晓：文心一言成为中国顶尖大模型

文心一言2yrs ago (2024)update lida

165 0 0

文章主题：超级Clue, 文心一言, GPT-3.5, 中文大语言模型

SuperClue最新榜单：文心一言国内登顶总分超GPT-3.5

在7月25日发布的最新版中文大语言模型排行榜中，SuperClue基准显示了百度文心一言的总分超过了GPT-3.5-Turbo，成为我国大型语言模型的领军者。这一结果进一步证明了百度在人工智能领域的领先地位和强大实力。

SuperClue榜单揭晓：文心一言成为中国顶尖大模型

SuperCLUE-Opt评估标准作为SuperCLUE综合性三大基准之一，每期包含3700道客观题目（包括选择题）。这些题目分为三个部分：基础能力（共10个子任务）、中文特性能力（共10个子任务）以及学术专业能力（共50个子任务）。通过这些题目，我们可以全面评估大模型在超过70个任务中的综合性能。

在本次的SuperCLUE评测中，我们围绕基础能力、专业能力和中文特性能力这三个核心维度，对70余个子能力进行了全面评估。为了确保评测的全面性和代表性，我们从国内外挑选了20个大模型进行对比测试。这个评测过程不仅考虑了模型的综合能力，还深入考察了其对中文特定任务的理解和积累。通过自动化的测评方式，我们得以以相对客观的态度对各个模型的表现进行评价。在总排名中，文心一言的表现相当出色，仅次于GPT-4，总分数甚至超过了GPT-3.5，以及我国其他的大模型。这充分证明了文心一言在各项评测指标上的优秀表现，展现了其在中文语言处理领域的强大实力。

SuperClue榜单揭晓：文心一言成为中国顶尖大模型

经过榜单的对比分析，我们发现尽管国外的 GPT-4 在效果上占据优势，但是我国的 GPT 模型也都有着出色的表现。特别是在中文领域，我国自主研发的大模型在某些方面有着突出的表现，逐渐缩小了与国际社会先进模型的差距。综合来看，在我国的大模型中，百度文心一言的表现最为优秀。文心一言 v2.2.0 版依赖于的是文心大模型 3.5，而文心大模型自 2019 年 3 月发布的 1.0 版以来，已经升级到了 3.5 版。新版本的模型在效果上提升了 50%，训练速度提高了 2 倍，推理速度则提高了 30 倍。

据深入了解，本次评价的SuperClue大模型榜单是由我国发起的，被视为中文领域的权威评估平台。与国外UC伯克利LLM排名以及斯坦福AlpacaEval流行的榜单相比，SuperClue更倾向于纳入一些国内的大模型，从而使得其更适合国内用户进行横向对比。作为适用于中文的通用大模型评估标准，SuperCLUE通过多种角度的能力考核，对一系列国内外代表性的模型进行了评测。然而，由于其采用的是封闭式的问题设置，对于大模型来说，这无疑是一次“闭卷考试”，因此，其测评难度相对较大。

SuperClue榜单揭晓：文心一言成为中国顶尖大模型

在评估标准中，我们的关注点主要集中在两个方面：基础能力和专业能力。其中，基础能力涵盖了诸如语义解析、对话技巧、逻辑推导、角色扮演、编程技能以及创意与创作等具有代表性的大众领域。而专业能力则包括了对中学、大学和专业知识考试的深入理解，覆盖了数学、物理、地理、社会科学等多个学科，共计50多项。此外，针对中文特性的能力也不容忽视，包括中文成语、诗词、文学、字形等方面的熟练掌握。

值得一提的是，全球领先的IT市场研究和咨询公司IDC最新发布《AI大模型技术能力评估报告，2023》显示，百度文心大模型3.5拿下12项指标的7个满分，综合评分第一，算法模型第一，行业覆盖第一，其中也是算法模型维度的唯一一个满分。

SuperClue榜单揭晓：文心一言成为中国顶尖大模型

另据近期多个公开测评显示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4的表现；综合能力在评测中超过ChatGPT，遥遥领先于其他大模型，稳居国内第一。返回搜狐，查看更多

责任编辑：