评测结果揭晓：讯飞星火认知大模型引领国产大模型潮流

讯飞星火2yrs ago (2024)update lida

155 0 0

文章主题：讯飞星火认知大模型, 评测报告, 技术实力, 发展潜力

最近，科大讯飞研发的讯飞星火认知大模型以1775的最高分在由中国企业发展研究中心发布的年度第三份《人工智能大模型体验报告3.0》评测中蝉联冠军。这一结果表明，国产大模型已经成功地从C端走向了B端，实现了“安全可控”的目标。

在本次的《报告》中，我们精心挑选了包括讯飞星火、360智脑、商汤商量在内的10款最新的国产主流大模型产品进行评估。在评估标准、主观与客观的融合以及指标与市场变动的适配性等方面，我们都对其进行了全面的升级。例如，我们在1000道题目中选择了400道题目进行实际的问答测试，这不仅是对大模型产品实际表现评测的提升，同时也增加了对于厂商技术实力及未来发展潜力的评估维度。

《报告》以“技术实力”与“发展潜力”作为两大坐标轴，对我国人工智能领域的重要企业——科大讯飞进行了深入分析。在“技术实力”方面，报告将平台的性能、安全性、模型可解释性以及实时性能等四个主要维度，以及易用性等重要指标，一同纳入考量。《报告》指出，科大讯飞凭借在语音技术领域的深厚积累，成功地将这种大模型注入了丰富的语音交互能力。而在“发展潜力”方面，报告则从社会认可度、创新能力以及市场前景三个角度，对科大讯飞的实力进行了评估。此外，报告还通过计算一系列关键指标，得出了主流大模型的综合指数，该指数达到了3.0。根据这一结果，讯飞星火等三家大模型在“技术实力”与“发展潜力”两个维度上，均位于第一象限，显示出其强大的竞争力和广阔的发展前景。

自今年下半年起，行业经历了从“拼技术”到“拼应用”的显著转变，《百模大战》 accordingly 不再关注单一的技术实力，而是将应用视为关键因素。据《报告》显示，主流大模型的产品在四个核心维度（基础能力、智商、情商及工具提效）上接受了全面测试。在这次评估中，科大讯飞脱颖而出，获得了 1775 分的高分，独占鳌头，并且在基础能力、智商以及工具提效这三个方面都名列第一。这一结果充分展示了科大讯飞在大模型领域的领先地位和卓越实力。

《报告》中的四大评测维度中，针对“工具提效指数”这一项，我们主要关注其在实际应用场景中的表现。具体来说，该指数在不同专业技能场景下都能在一定程度上提升问题分析和解决的水平，同时还能加速大纲罗列的过程。通过这样的测试，我们可以全面评估大模型的实用性和易用性，从而确保其能够在实际应用中发挥出最大的价值。

在最近的一份报告中，针对一个重要的医疗议题进行了深度探讨和测试：“猴痘的传播方式以及现有治疗手段是什么？”来自讯飞星火的团队凭借其卓越的分析能力和专业知识，精炼地提出了三种传播途径和相应的治疗方案，最终以472分的高分位列第一。这一成果充分展示了讯飞星火在医疗领域的研究实力和应对能力，也为我国相关研究和实践提供了有力的支持。

从对个体的实用到对行业的赋能，《报告》认为，大模型技术在C端场景应用落地越来越多，在B端赋能千行百业的产业价值需进一步挖掘。

《报告》认为，“为了保证算力安全，讯飞和华为强强联合，把自身拥有的自研大模型训练平台，具备训练和数据闭环全流程设计、大模型训练和推理一体化设计、大规模异构算力兼容、支持混合云架构易拓展等优势和华为基于昇腾AI基础软硬件的高算力AI 芯片、高性能算子库、多卡高速互联、分布式存储等优势结合起来，打造出了面向超大规模大模型的训练国产算力集群，保证了人工智能大模型的算力安全和发展自主。同时，讯飞星火形成了立体化的‘内容安全’保障机制，解决了内容安全方面的问题。”

在实践成效方面，《报告》认为，“在讯飞保障内容，华为保障算力的前提下，讯飞联合华为推出了国产软硬件一体化的私有专属大模型解决方案‘星火一体机’，它就好像一个人工智能大模型的服务器，开箱就可以立即提供从底层算力、AI框架、训练算法、推理能力、应用成效等全栈AI能力，让企业可以在这个‘一体机’上，打造属于自己的专属私有化大模型”。

文/北京青年报记者温婧

编辑/樊宏伟

举报/反馈

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！