评测结果显示：讯飞星火认知大模型总分领先，国产大模型实现“安全可控”

讯飞星火2yrs ago (2024)update lida

183 0 0

文章主题：多款大模型, 讯飞星火, 评测报告, 国产大模型

机构：多款大模型讯飞星火总分领先，实现国产大模型“安全可控”

最近，科大讯飞研发的讯飞星火认知大模型在11月20日被新华社研究院中国企业发展研究中心发布的年度第三份关于大模型的评测报告中获得了最高分1775分，再次蝉联冠军。这一成果标志着我国在国产大模型领域取得了重要突破，成功实现了从C端到B端的“安全可控”转变。

评测结果显示：讯飞星火认知大模型总分领先，国产大模型实现“安全可控”

在本次的《报告》中，我们精心挑选了包括讯飞星火、360智脑、商汤商量在内的10款最新的国产主流大模型产品，对其进行了全方位的评估和升级。在评估标准上，我们在原有的基础上进一步拓宽了视野；在主观评价和客观数据之间的融合上，我们也做了一定的优化；同时，我们也针对指标与市场异动匹配的问题进行了深入研究。具体来说，我们在1000道题目中选择了400道进行实际问答测试，这不仅是对大模型产品本身性能的评测，更是对其厂商技术实力以及未来发展潜力的综合考量。

《报告》以“技术实力”与“发展潜力”作为两大坐标轴，对我国人工智能领域的重要企业——科大讯飞进行了深入分析。在“技术实力”方面，报告将平台的性能、安全性、模型可解释性以及实时性能等重要指标进行了全面评估，并且进一步细化，涵盖了易用性等七个三级指标。具体来说，《报告》指出，科大讯飞凭借其深厚的语音技术积淀，成功地将这种丰富性注入了大模型中，从而极大地提升了其语音交互的能力。对于“发展潜力”，报告则从社会认可度、创新能力以及市场前景三个维度进行了评估，并进一步细化出用户接受度等五个三级指标。基于这些指标，报告计算出了主流大模型的综合指数，达到了3.0。结果表明，科大讯飞的星火等三家大模型在“技术实力”和“发展潜力”两个方面都位于第一象限，显示出其强大的竞争力和巨大的发展潜力。

自今年下半年起，行业经历了从“拼技术”到“拼应用”的转变，应用型人才逐渐成为行业共识。《报告》对当前主流大模型的产品进行了全面评估，从基础能力、智商、情商以及工具提效等四个维度进行了深度测试。根据测试结果，科大讯飞以其卓越表现获得了最高分1775分，稳居总分排名首位。同时，在基础能力、智商以及工具提效这三个维度的测试中，科大讯飞都位列第一，充分展现了其在应用领域的强大实力。

《报告》中的四大评测维度中，针对“工具提效指数”这一项，我们主要关注其在实际应用场景中的表现。具体而言，该指数在不同专业技能场景下都能在一定程度上提升问题分析和解决的水平，同时还能加速大纲罗列的过程。这正是对大模型“好用性”的一种直接衡量。

在最近的一份报告中，针对一个重要的医疗议题进行了深度探讨和测试：“猴痘的传播方式以及现有治疗手段是什么？”来自讯飞星火的团队凭借其卓越的分析能力和专业知识，精炼地提出了三种传播途径和相应的治疗建议，最终以472分的高分位列第一。这一成果充分展示了讯飞星火在医疗领域的研究实力和应对能力，也为我国相关研究和实践提供了有力的支持。

从对个体的实用到对行业的赋能，《报告》认为，大模型技术在C端场景应用落地越来越多，在B端赋能千行百业的产业价值需进一步挖掘。

《报告》认为，“为了保证算力安全，讯飞和华为强强联合，把自身拥有的自研大模型训练平台，具备训练和数据闭环全流程设计、大模型训练和推理一体化设计、大规模异构算力兼容、支持混合云架构易拓展等优势和华为基于昇腾AI基础软硬件的高算力AI 芯片、高性能算子库、多卡高速互联、分布式存储等优势结合起来，打造出了面向超大规模大模型的训练国产算力集群，保证了人工智能大模型的算力安全和发展自主。同时，讯飞星火形成了立体化的‘内容安全’保障机制，解决了内容安全方面的问题。”

在实践成效方面，《报告》认为，“在讯飞保障内容，华为保障算力的前提下，讯飞联合华为推出了国产软硬件一体化的私有专属大模型解决方案‘星火一体机’，它就好像一个人工智能大模型的服务器，开箱就可以立即提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力，让企业可以在这个‘一体机’上，打造属于自己的专属私有化大模型”。

文/北京青年报记者温婧

编辑/樊宏伟返回搜狐，查看更多

责任编辑：