文章主题:AI大模型产品能力, 国内LLM产品测试报告, 百度文心一言, 综合得分
在8月4日于百度举办的“AI大模型产品能力交流会”上,新华网与权威机构共同发布了《国内LLM产品测试报告》。该报告为行业提供了关于大模型选择的标准,涵盖了五个关键维度,包括内容安全、常识问答、数学运算、阅读理解以及主观问答。这一举措对于推动我国人工智能技术的发展具有重要意义,同时也将为相关行业的专业人士提供更为全面的参考依据。
(新华网测试报告:百度文心一言综合得分第一)
在近期的一份由新华网发布的评测报告中,针对文心一言、GPT-3.5等四个顶级人工智能助手进行了全面的评估。根据评估结果,百度文心一言在综合表现上脱颖而出,成为该榜单的领军人物,其得分甚至超过了GPT-3.5,从而在国内大模型领域独占鳌头。这一评测结果充分展示了百度文心一言在自然语言处理领域的强大实力与广泛应用前景。
文心一言,作为我国百度公司独立研发的知识增强型大型语言模型,其强大的学习能力源于对数万亿数据和数千亿知识的深度融合。在这个基础上,通过有监督精调、人类反馈的强化学习和提示等技术手段,进一步优化和完善。该模型不仅具备知识增强、检索增强和对话增强等技术优势,更是在此基础上实现了全面的提升,为我国的智能化发展做出了重要贡献。
内容价值是企业选择大模型重要因素
大模型的出色通用性和泛化性使其成为获取服务和产品功能的便捷途径。然而,各个国家和地区的法律文化、社会习俗以及伦理道德存在差异,这使得在不同场景下,人们对于模型的应用可能会受到限制。
对于同一问题,大模型的回答可能导致社会反馈各异,既有积极影响,也可能存在负面争议。更严重的是,某些文化偏见甚至可能诱发群体冲突。
在选择大模型时,内容质量无疑是至关重要的考量因素。根据新华网的评测报告,我们可以从两个主要角度评估内容的优劣。首先,内容安全问答方面,涵盖了意识形态、非法涉黄等多个维度,确保了内容的合法合规性。其次,常识问答领域,覆盖了我国的文化、历史、地理以及生活等各个方面的基本常识知识,体现了大模型的全面性和广泛性。综合这两个维度,我们可以更加全面地评价大模型的内容质量,从而确保其能够满足各种应用场景的需求。
物联网技术总监葛振斌强调,生成的大模型内容必须遵循当地的法律和社会道德标准。换言之,各国都应该拥有“更贴近自身历史文化”的大语言模型。
在产业界中,大模型的作用日益凸显,其重要性不可忽视。有些企业甚至依赖其“传承配方”,以形成独特的竞争优势。中国传媒大学新媒体研究院院长赵子忠指出,这给大模型在信息安全、数据安全以及定制化服务等方面带来了挑战。因此,大模型必须具备高度专业化、针对性的服务能力,才能满足不同企业的个性化需求。
文心一言“最适合中国”
当前,从政府机构到企业公司,都迫切需要一些判断大模型适合程度的标准和方法。
新华网物联网技术总监葛振斌认为,评测大模型有5项维度非常重要:一是把控生成内容安全性的能力,背后涉及意识形态、政治体制、非法涉黄等维度,每一项都事关一个社会文明的底线;二是常识推断计算的能力,涉及自然、文化、地理、历史和生活等多个领域,必须先吃透这些方面的常识,才能避免生成不恰当的内容结果;三是对长文本的语义理解能力。这可以考验大模型产出的内容是否正确且言之有理,是否具有较好的说服力;四是数学运算及数学推理能力;五是主观思维能力,考验大模型是否可以准确理解当地风俗习惯或者传统文化。
新华网评测报告显示,文心一言因中文搜索引擎和算法模型优势,在安全、常识、数学、阅读等方面优势明显。在五个维度上的得分计算均值,文心一言的综合得分为94.7分,排名第一,高于GPT-3.5的76.9分。这说明当前文心一言在总体能力(中文处理)上已经超越了GPT-3.5模型。
(新华网测试报告:百度文心一言综合得分第一)
凭借上述表现,文心一言在“最适合中国”方面抢占领先身位,领跑国内大模型。
专家建议:开发者基于文心大模型抢占发展先机
如今,参考权威机构评测成为客户选择大模型的一个重要方式。如同生活中常见的智能手机评测,汽车驾驶评测,是用户选择产品和服务的重要参考。
除了新华网评测报告,近期,还有IDC等多个权威机构发布评测报告,结果均显示由文心大模型3.5支持的文心一言综合能力评测得分超过ChatGPT3.5。
比如IDC报告显示,文心大模型3.5拿下12项核心指标的7个满分,综合评分位列国内主流大模型第一,并在算法模型、行业覆盖两大关键指标上拿下唯一满分。
中国传媒大学新媒体研究院院长赵子忠建议,创业者和开发者以及中小企业,其实不需要从0到1的打造自己的大模型,可以基于文心大模型打造智能应用,避免重复造轮子,把精力放在自己擅长的创新上。谁先做出来满足用户需求的应用,谁就抢占了发展先机。
百度2019年推出文心大模型1.0,今年5月份升级到3.5版本。通过飞桨深度学习平台与文心大模型的协同优化,文心大模型3.5实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强、插件机制等,模型效果提升50%,训练速度提升2倍,推理速度提升30倍。
目前百度文心大模型已拥有中国最大的产业落地规模,超过15万家企业申请文心一言内测,其中有超300家生态伙伴在400多个具体场景取得测试成效,覆盖办公提效、知识管理、智能客服、智能营销等领域,联合国家电网、浦发银行、泰康、吉利等企业,联合发布了 11个行业大模型。百度还设立了 10 亿创投基金鼓励大模型创意、繁荣大模型生态。
软通动力CTO刘会福曾表示,我们非常期待在文心大模型的基础上,开拓更多的应用实践。北京宝兰德软件董事长易存道表示,如何把大模型在垂直行业做好,是目前各个企业都要考虑的问题,多数企业无法像百度一样有能力建设大模型。
怎么能够把百度的大模型能力和企业业务有效结合起来,创造更强的价值,是企业非常好的弯道超车机会。金山办公助理总裁田然表示,金山办公要跟中国优秀的大模型提供方站在一起。金山办公和文心的合作,会进一步推动大模型在办公领域的应用和快速落地。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!