文章主题:讯飞星火, 国产大模型, 测评榜, 人工智能
原标题:新华社研究院发布国产大模型报告:讯飞星火总分第一
《人工智能大模型体验报告2.0》于8月12日由新华社研究院中国企业发展研究中心发布。在此次测评中,共有500道题目,旨在对接受过高等教育的人类水平相当。评估过程更为注重产业和生活的实际价值,采用了基础能力指数、智商指数、情商指数以及工具提效指数四大测评维度进行严格的权重设计。经过综合比较,讯飞星火在总分1013分的国内主流大模型测评榜上位居榜首。在智商指数和工具提效指数两大评测维度上,讯飞星火均名列第一。这份报告指出,讯飞星火在提高工作提效方面表现尤为突出。
《报告》指出,讯飞星火认知大模型凭借其7大核心能力——文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力,展现出了卓越的跨领域知识和语言理解能力。该模型能够通过自然对话的方式,理解和执行各种任务。同时,它能在海量数据和大规模知识的海洋中不断进化,实现了从问题提出、规划到最终解决的全流程闭环。
在我国自主研发的大模型“涌现”的背景下,讯飞星火认知大模型的每一个发展阶段都充满了紧张和期待:从项目启动到产品发布,再到持续的迭代升级,每一个环节都体现出其重要性。首先,在5月6日,讯飞星火认知大模型以及其在教育、办公、汽车、人机交互、医疗等各个领域的实际应用都得到了正式公布。紧接着,在6月9日,该模型在开放式问答方面取得了突破,同时在数学能力上也进行了迭代升级。预计在即将到来的8月15日,讯飞星火认知大模型将在代码能力上取得重大突破,同时也在多模态交互能力上实现了升级。最后,在10月24日,讯飞星火认知大模型将挑战ChatGPT,力求在中文领域超越对手,同时在英文能力上也能达到相当的水平。
《报告》指出,尽管人工智能在某些领域表现出色,但在智商评估上,人类依然占据显著优势。为了全面衡量这一问题,研究小组从常识知识(占20%)、逻辑能力(占50%)以及专业知识(占30%)三个方面对大型AI模型进行了评价。最终,我国讯飞星火模型在各项指标中脱颖而出,位居榜首。
作为讯飞星火“高智商”基础能力的体现,其代码能力将在8月15日迎来重大升级,并同步推出相关代码产品成果,这无疑令人充满期待。
《报告》指出,AI技术为人类在工作中提供了强大的助力,尤其是在处理速度上,其表现远超人类。然而,在面临复杂性和创新性较高的任务时,人类的智慧与想象力依然不可忽视。为此,研究组着重于工具提效(占比50%)和生成创新(占比50%)两个方面展开探讨。最终,讯飞星火以350分的优异表现荣登榜首,远远领先于其他竞争对手。
《报告》认为,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。虽然在不同领域中,AI和人类表现出不同的优劣势,但在整体上,AI大模型的发展为人类工作和生活的提质增效带来了重要的积极影响,大模型正在加速走进生活、走进产业。返回搜狐,查看更多
责任编辑:
讯飞星火, 国产大模型, 测评榜, 人工智能
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!