《全面评测！科大讯飞星火认知大模型V2.0实力惊人，引领中国AI发展新征程》

讯飞星火2yrs ago (2024)update lida

176 0 0

文章主题：ChatGPT, 人工智能, 科大讯飞, 星火

仅仅200多天前，ChatGPT的问世引领了全球人工智能的革命，它在短短两个月内便吸引了全球上亿用户，这无疑打开了通往更高层次人工智能发展的大门。而在100多天前，我国的科大讯飞也推出了一款具有七大能力维度的通用认知大模型——星火，这使得大模型战争进入了激烈的阶段。如今，随着科大讯飞星火认知大模型V2.0的升级发布，大模型战役已经迈入“2.0”时代。

在8月17日，《MIT Technology Review》（麻省理工科技评论）中国版（简称“MIT科技评论”）上，一场专业性极高的评测盛宴展开，主题是《寻找最聪明的大模型：国内主流大模型能力深度评测》。评测对象则是四款颇具代表性的中文大模型，它们分别是讯飞星火（V2.0）、百度文心一言（V2.2.2）、商汤商量（V2.0）以及阿里通义千问（V1.0.5）。这次评测的特别之处在于，它是我国学术界首个基于最新版中国大模型进行的横向评测。经过深入、严谨的评测，结果揭晓：讯飞星火以总分81.5分的优异表现，成为了评测的冠军，其与第二名之间的差距达到了6.3分，这无疑是一次令人震撼的胜利。这一结果充分展示了讯飞星火在大模型领域的强大实力和领先地位，也再次证明了其在人工智能领域的卓越成就。

MIT科技评论在评估过程中所采用的方法严谨实用，其流程主要包括建立题库、挑选测试题目、应用测试集以及送回题库等环节。对于Prompt（提示词）测试集的构建，该评论更是细致入微。本次测试集共包含600道题目，题库的来源涵盖了行业标准题库、专家设计题库、社区贡献的题库，以及来自现有研究和竞赛中经过验证的题库。这一系列举措都旨在尽可能地扩展测试集题库的丰富性和多样性，从而能够更好地覆盖各种应用场景和行业领域。

《全面评测！科大讯飞星火认知大模型V2.0实力惊人，引领中国AI发展新征程》

在星火1.5版本时期，讯飞便对数学能力进行了提升，这一特点在2.0版本中得以进一步强化。当面对“求x2＜9”这样的求解不等式数学题目时，星火V2.0模型不仅给出了正确的答案，同时也提供了详细的解题步骤，让人们不仅了解结果，更能理解其中的道理，展现出数理逻辑的严密性。在这个测试中，星火V2.0模型的得分为77.75%，远高于平均得分率的56%，充分展现了其“最擅长计算”的能力。

《全面评测！科大讯飞星火认知大模型V2.0实力惊人，引领中国AI发展新征程》

星火V2.0在代码能力方面也得到了显著的提升。MIT科技评论以Python作为评估工具，对四种大型模型进行了幂函数计算的测试，以此检验它们的编程技能。最终，讯飞星火V2.0在综合得分率为80%，远高于平均水平的71%，尤其在编程“简单”这一项上，其得分为82%，远远超过68.25%。这充分展示了星火V2.0在代码生成和解释方面的卓越能力。

在讯飞星火V2.0发布会上，讯飞董事长刘庆峰引用了认知智能全国重点实验室的测试结果，这些结果是通过使用代码实用场景测试集iflyCT-py进行的。根据测试结果显示，星火V2.0的“代码生成”得分高于ChatGPT的3%，而“代码解释”得分低于ChatGPT的4%。尽管两款大模型的代码能力各有所长，但已经确定的是，星火的某些能力已经超越了ChatGPT。此外，MIT科技评论对星火V2.0的代码能力进行了测试，进一步证实了这一观点。

《全面评测！科大讯飞星火认知大模型V2.0实力惊人，引领中国AI发展新征程》

除了在“语言专项”、“逻辑思维”以及“综合知识”等领域拔得头筹，讯飞星火的卓越表现更是彰显出其“不偏科”的全能特长优势，甚至获得了MIT科技评论的赞誉，成为“最聪明”的中国大模型。然而，在最近的横评中，星火V2.0遗憾地未能展现出多模态能力的进步，这主要是由于当前大模型多模态发展程度的限制所导致，无法将其纳入评估范围。尽管如此，MIT科技评论在文章结尾部分暗示，他们将会持续优化中国大模型评测体系，并逐步引入对多模态能力的考核，我们期待在未来的“横评2.0版本”中，能够看到中国大模型在多模态领域的精彩对决。

以行业观察者的视角来看，MIT科技评论对我国大型AI模型的全面评测，无疑突显了我国在AIGC领域的核心地位。这不仅是对讯飞星火大模型的单一胜利，更是中国大型AI模型的集体荣耀。当前，通用认知大模型正在全球范围内迅速扩展，其影响力有望超越预期，对人类社会产生重大且深远的效应。

ChatGPT, 人工智能, 科大讯飞, 星火