《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

讯飞星火11mos agoupdate lida
108 0 0

文章主题:ChatGPT, 人工智能, 科大讯飞, 星火

666ChatGPT办公新姿势,助力做AI时代先行者!

仅仅200多天前,ChatGPT的问世改变了世界,其在短短两个月内便吸引了全球上亿用户,这无疑打开了人工智能向更高层次发展的大门。而在100多天前,我国科大讯飞也推出了一款具有七大能力维度的通用认知大模型——星火,这标志着大模型战争进入了白热化的阶段。如今,随着科大讯飞星火认知大模型V2.0的升级发布,这场大模型战役已经进入了“2.0”时代。

《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

在8月17日,《MIT Technology Review》(麻省理工科技评论)中国版(简称“MIT科技评论”)上,一场专业性极高的评测盛宴展开,主题是《寻找最聪明的大模型:国内主流大模型能力深度评测》。评测对象则是四款颇具代表性的中文大模型,它们分别是讯飞星火(V2.0)、百度文心一言(V2.2.2)、商汤商量(V2.0)以及阿里通义千问(V1.0.5)。这次评测的特别之处在于,它是我国学术界首个基于最新版中国大模型进行的横向评测。评测结果令人备受期待,讯飞星火以其出色的表现脱颖而出,以总分81.5分的成绩荣膺榜首,与第二名相比,更是存在着6.3分的巨大优势。这一评测结果充分展示了讯飞星火在人工智能领域的强大实力和领先地位,也预示着它在未来的发展前景。

MIT科技评论在评估过程中所采用的方法严谨实用,具体流程包括建立题目数据库、挑选测试题目、应用测试集以及送回题目数据库等步骤,这一流程被用于构建Prompt(提示词)测试集。本次测试集共包含600道题目,其来源广泛,不仅包括行业规范性题目库、由专家设计的题目库,还涵盖了社区成员提交的题目库,以及从现有研究及竞赛中经过验证的题目库。这样的设计旨在尽可能地扩展测试集题库的丰富性和多样性,从而能够覆盖更多的应用场景和行业领域。

《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

在星火1.5版本时期,讯飞便对数学能力进行了提升,这一特点在2.0版本中得以进一步强化。当面对“求x2<9”这样的求解不等式数学题目时,星火V2.0大模型不仅给出了正确的答案,同时也提供了详细的解题过程,让人们不仅了解结果,更能理解其背后的原因,展现出数理逻辑的严密性。在这个测试中,星火V2.0的得分率为77.75%,远高于平均水平的56%,充分展示了其“最擅长计算”的能力。

《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

星火V2.0在代码能力方面也得到了显著的提升。MIT科技评论采用Python语言对四种大型模型进行幂函数计算,以此评估它们的代码编程能力。最终,讯飞星火V2.0在综合得分率为80%,明显高于平均值71%。同时,在编程“简答”这一单项中,其得分率为82%,远高于平均值68.25%。这表明,讯飞星火V2.0在代码生成和代码解释方面表现出了卓越的能力。

在讯飞星火V2.0发布会上,讯飞董事长刘庆峰引用了认知智能全国重点实验室的测试结果,这些结果采用了代码实用场景测试集iflyCT-py。根据数据显示,星火V2.0的“代码生成”得分高于ChatGPT的3%,而“代码解释”得分低于ChatGPT的4%。尽管两款大模型的代码能力各有所长,但已经在实际应用中可以看出,星火的某些能力已经超越了ChatGPT。此外,MIT科技评论对星火V2.0的代码能力进行了测试,进一步证实了这一观点。

《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

除了在“语言专项”、“逻辑思维”和“综合知识”等领域拔得头筹,讯飞星火在各项评估中均表现出色,充分展示了其“全能特长”的优势。因此,它被MIT科技评论誉为我国最具智慧的了大模型。然而,在这次的横向评价中,星火V2.0也显得有些“遗憾”。这主要是因为目前大模型多模态发展的局限性,导致星火V2.0在多模态能力的提升方面并未得到充分的展示。尽管如此,MIT科技评论在文章结尾部分暗示,他们将会持续优化我国的评测体系,逐步纳入对多模态能力的考核,我们有望在未来的“横评2.0版本”中看到我国大模型在多模态领域的精彩对决。

以行业观察者的视角来看,MIT科技评论对我国大型AI模型的全面评测,无疑突显了我国在AIGC领域的核心地位。这不仅是对讯飞星火大模型的单一胜利,更是中国大型AI模型的集体荣耀。当前,通用认知大模型正在全球范围内迅速扩展,其影响力有望超越预期,对人类社会产生重大且深远的效应。

ChatGPT, 人工智能, 科大讯飞, 星火

《星火认知大模型:讯飞V2.0荣登“最聪明”宝座》

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!

© Copyright notes

Related posts

No comments

No comments...