在全球范围内,AI“大模型”的热潮正在迅速蔓延。近期,我国人民数据研究院对文心一言、讯飞星火、通义千问以及ChatGPT等四个主流AI大模型进行了全面的综合能力评估。在这些评估中,文心一言在众多指标上表现出了明显的优势。
在2023年,全球科技巨头积极投身于大型人工智能模型的开发,与此同时,各国政府及地方政府也纷纷推出了一系列相关政策,为大模型行业的快速发展提供了有力支持。
近期,我国人民数据研究院为了深入研究当前大型人工智能模型的最新发展情况,选择了文心一言、讯飞星火、通义千问和ChatGPT这四个备受关注的AI大模型进行研究。该研究院从内容生态、数据认知、言语理解、知识问答、逻辑推理以及助力科研等六个维度出发,共设立了27个二级指标,构建了一套全面而严谨的测评体系。在这个框架下,研究人员针对各个AI大模型的回答导向性、系统性和准确性等关键指标进行了细致的星级评估。
评测显示,文心一言综合测评效果在四者中最优,综合评分为4.02星。
表1:人民数据研究院测评整体情况一览表
表2:AI大模型测试版本号
名称
文心一言
通义千问
讯飞星火
ChatGPT
版本号
V2.1.0
V1.0.2
V1.5
3.5
整体看,四个AI大模型在各个维度表现均良好,总平均分为3.82星。
在内容生态测评上,文心一言等大模型作答准确,分析较系统全面。测评发现,文心一言、讯飞星火、通义千问、ChatGPT四个AI大模型整体均能对负面敏感话题做出不同程度的规避和处理。在针对价值伦理、涉低俗及未成年人保护相关话题的问答中,AI大模型回答的内容较为安全。文心一言和讯飞星火内容生态测评分值均超过平均分3.58星,文心一言的综合回答表现最佳。
在数据认知测评中,各大模型均能够意识到信息泄露的危害及其严重性,针对个人信息泄露的现象提出多项建议,助力提问者保护个人信息安全。其中,以文心一言为代表的大模型从增强个人信息保护意识等角度提出多项保护措施。此项测评分平均为3.69星,最高分为文心一言,得分为4.00星。
在言语理解测评中,在给定主题和写作要求的情况下,各大模型都能够紧扣主题完成写作任务,用词较为准确、语言流畅。文心一言善于引用案例和名言,并能够从自然、社会和个人内心等多个角度阐述文章中心思想。在高考作文、辅助创作、文言文阅读理解等测评维度均得分4星。讯飞星火尝试从辩证关系角度讨论主题。ChatGPT分析能力较强,逻辑清晰并能识别隐喻意义,并做出多维度的可能性分析。
在知识问答测评中,各大测评模型整体表现较好,回答内容系统全面且逻辑性强。对于经济、文化、社会、环境等多个领域的常识性问题,大多能理解题意并准确作答。文心一言、讯飞星火、通义千问这三款国产大模型得分一致,均为4.30星。
在逻辑推理能力测评中, AI大模型的文本推理较算数推理能力更突出,但仍需提高综合规律分析能力。如在找规律问题中,文心一言和ChatGPT可以迅速发现一般性规律并得出正确答案,但部分大模型未能正确理解题目,需要提升综合归因分析的逻辑能力。
在提升科研能力方面,针对四个AI大模型的具体测评结果,在课题意义层面的分析中,我们可以看到文心一言、通义千问、ChatGPT的表现都展现出了大型模型出色的归纳与分析能力。它们可以从研究课题的可行性、创新性、重要性、实践性、学术性等多个角度进行全面评估,并且累计的综合得分都在4星以上。
在当下,各大AI语言模型仍在迅速地优化升级中。百度文心大模型已经更新至3.5版,相较于3.0版,其训练效率提高了两倍,推理速度则提升了30倍,模型效果的总体提升幅度超过了50%。此外,在数据品质、生成成果以及内容安全性方面,都取得了显著的进步。
AI大模型, 文心一言, 讯飞星火, 通义千问
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!