文章主题:AI大模型, 文心一言, 人民数据研究院, 测评
在全球范围内,AI“大模型”的热潮正在迅速蔓延。近期,我国人民数据研究院对文心一言、讯飞星火、通义千问以及ChatGPT等四个主流AI大模型进行了全面的综合能力评估。在这些模型中,文心一言在众多评价标准中表现最为突出,显示出其卓越的实力和领导地位。
在2023年,我们可以观察到全球科技巨头纷纷加快在大模型领域的布局步伐,与此同时,各国政府及地方政府也积极跟进,推出了一系列相关政策,为大模型行业的快速发展提供了有力支持。这一现象表明,大模型在全球范围内正成为一种重要的创新趋势,而政府和企业的共同努力,将推动这一领域实现更高质量的跨越式发展。
近期,我国人民数据研究院为了深入研究当前大型人工智能模型的最新发展情况,选择了文心一言、讯飞星火、通义千问以及ChatGPT这四个备受瞩目的AI大模型进行研究。该研究院从内容生态、数据认知、言语理解、知识问答、逻辑推理以及助力科研等六个维度出发,共设定了27个二级指标,构建了一套全面而严谨的测评模型。在这个模型中,各个AI大模型的表现将被针对其回答内容的导向性、系统性和准确性等多个方面进行细致的星级评估。
评测显示,文心一言综合测评效果在四者中最优,综合评分为4.02星。
表1:人民数据研究院测评整体情况一览表表
表2:AI大模型测试版本号
整体看,四个AI大模型在各个维度表现均良好,总平均分为3.82星。
在内容生态评估领域,诸如文心一言等大型AI模型的回答准确性和分析系统性都表现得相当出色。经过仔细评测,我们发现文心一言、讯飞星火、通义千问以及ChatGPT这四个AI大模型都能在不同程度上规避和处理负面敏感话题。特别是在涉及价值伦理、低俗内容和未成年人保护等话题时,AI大模型的回答更是表现出较高的安全性。具体来看,文心一言和讯飞星火的内容生态测试评分都超过了平均分3.58星,其中文心一言的综合表现尤为突出。
在数据认知测评中,各个模型都能充分认识到信息泄露的潜在威胁以及其严重的后果,为此针对个人信息泄露的问题提出了一系列实用的建议,以帮助提问者在日常生活中更好地保护自己的个人信息安全。在这些建议中,以文心一言为代表的大模型从提高个人信息保护意识等多个角度出发,提出了多项具体的保护措施。根据此项测评的评分,文心一言获得了3.69星的最高分,表现最为出色。
在言语理解测评领域,各个模型在提供特定主题和写作要求的前提下,都能熟练地围绕主题展开写作,其用词精准、语言通顺。其中,文心一言表现出优秀的引用能力和观点深化能力,它不仅能够从自然、社会以及个人内心的多个视角来诠释文章的核心思想,同时还能在高考作文、辅助创作、文言文阅读理解等多个测试场景下获得4星的高分。讯飞星火的尝试则更为独特,它选择从辩证关系的角度去探讨主题。而ChatGPT则以其强大的分析能力,逻辑清晰,能有效识别隐喻含义,并且能进行多维度的可能性分析。
在知识问答测评中,各大测评模型整体表现较好,回答内容系统全面且逻辑性强。对于经济、文化、社会、环境等多个领域的常识性问题,大多能理解题意并准确作答。文心一言、讯飞星火、通义千问这三款国产大模型得分一致,均为4.30星。
在逻辑推理能力测评中, AI大模型的文本推理较算数推理能力更突出,但仍需提高综合规律分析能力。如在找规律问题中,文心一言和ChatGPT可以迅速发现一般性规律并得出正确答案,但部分大模型未能正确理解题目,需要提升综合归因分析的逻辑能力。
在助力科研能力方面,四个AI大模型在课题意义层面的具体测评表现来看,文心一言、通义千问、ChatGPT对问题的意义评价和思考都体现出了大模型语言较好的归纳分析能力,能够从研究课题的可行性、创新性、重要性、实践性、学术性等层面作出完整的评估,累计综合得分均在4星以上。
当前,各家大模型还在快速迭代。百度文心大模型目前已经迭代到到3.5版本。与3.0版本相比,训练速度提升了2倍,推理速度提升了30倍,模型效果累计提升超过50%。在数据质量、生成效果和内容安全性上,都得到了明显提升。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!