仅仅200多天前,ChatGPT的问世引领了全球人工智能的革命,它在短短两个月内便吸引了全球上亿用户,这无疑打开了通往更高层次人工智能发展的大门。而在100多天前,我国的科大讯飞也推出了一款具有七大能力维度的通用认知大模型——星火,这使得大模型战争进入了激烈的阶段。如今,随着科大讯飞星火认知大模型V2.0的升级发布,大模型战役已经迈入“2.0”时代。
在8月17日,《MIT Technology Review》(麻省理工科技评论)中国版(简称“MIT科技评论”)上,一场专业性极高的评测盛宴展开,主题是《寻找最聪明的大模型:国内主流大模型能力深度评测》。评测对象则是四款颇具代表性的中文大模型,它们分别是讯飞星火(V2.0)、百度文心一言(V2.2.2)、商汤商量(V2.0)以及阿里通义千问(V1.0.5)。这次评测的特别之处在于,它是我国学术界首个基于最新版中国大模型进行的横向评测。经过深入、严谨的评测,结果揭晓:讯飞星火以总分81.5分的优异表现,成为了评测的冠军,其与第二名之间的差距达到了6.3分,这无疑是一次令人震撼的胜利。这一结果充分展示了讯飞星火在大模型领域的强大实力和领先地位,也再次证明了其在人工智能领域的卓越成就。
MIT科技评论在评估过程中所采用的方法严谨实用,其流程主要包括建立题库、挑选测试题目、应用测试集以及送回题库等环节。对于Prompt(提示词)测试集的构建,该评论更是细致入微。本次测试集共包含600道题目,题库的来源涵盖了行业标准题库、专家设计题库、社区贡献的题库,以及来自现有研究和竞赛中经过验证的题库。这一系列举措都旨在尽可能地扩展测试集题库的丰富性和多样性,从而能够更好地覆盖各种应用场景和行业领域。
在星火1.5版本时期,讯飞便对数学能力进行了提升,这一特点在2.0版本中得以进一步强化。当面对“求x2<9”这样的求解不等式数学题目时,星火V2.0模型不仅给出了正确的答案,同时也提供了详细的解题步骤,让人们不仅了解结果,更能理解其中的道理,展现出数理逻辑的严密性。在这个测试中,星火V2.0模型的得分为77.75%,远高于平均得分率的56%,充分展现了其“最擅长计算”的能力。
星火V2.0在代码能力方面也得到了显著的提升。MIT科技评论以Python作为评估工具,对四种大型模型进行了幂函数计算的测试,以此检验它们的编程技能。最终,讯飞星火V2.0在综合得分率为80%,远高于平均水平的71%,尤其在编程“简单”这一项上,其得分为82%,远远超过68.25%。这充分展示了星火V2.0在代码生成和解释方面的卓越能力。
在讯飞星火V2.0发布会上,讯飞董事长刘庆峰引用了认知智能全国重点实验室的测试结果,这些结果是通过使用代码实用场景测试集iflyCT-py进行的。根据测试结果显示,星火V2.0的“代码生成”得分高于ChatGPT的3%,而“代码解释”得分低于ChatGPT的4%。尽管两款大模型的代码能力各有所长,但已经确定的是,星火的某些能力已经超越了ChatGPT。此外,MIT科技评论对星火V2.0的代码能力进行了测试,进一步证实了这一观点。
除了在“语言专项”、“逻辑思维”以及“综合知识”等领域拔得头筹,讯飞星火的卓越表现更是彰显出其“不偏科”的全能特长优势,甚至获得了MIT科技评论的赞誉,成为“最聪明”的中国大模型。然而,在最近的横评中,星火V2.0遗憾地未能展现出多模态能力的进步,这主要是由于当前大模型多模态发展程度的限制所导致,无法将其纳入评估范围。尽管如此,MIT科技评论在文章结尾部分暗示,他们将会持续优化中国大模型评测体系,并逐步引入对多模态能力的考核,我们期待在未来的“横评2.0版本”中,能够看到中国大模型在多模态领域的精彩对决。
以行业观察者的视角来看,MIT科技评论对我国大型AI模型的全面评测,无疑突显了我国在AIGC领域的核心地位。这不仅是对讯飞星火大模型的单一胜利,更是中国大型AI模型的集体荣耀。当前,通用认知大模型正在全球范围内迅速扩展,其影响力有望超越预期,对人类社会产生重大且深远的效应。
ChatGPT, 人工智能, 科大讯飞, 星火
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!