去年12月15日,讯飞正式启动了“1+N”大模型攻关计划,半年时间内,讯飞星火认知大模型正式面世;
从发布至今即将“满月”,讯飞星火在一次次的提问与回复中持续迭代进化,收获了许多宝贵的反馈与建议。
半年时间里,讯飞为何能顺利研发出星火认知大模型?背后究竟有哪些核心的“修炼秘诀”?
5月27日,科大讯飞研究院院长刘聪回到母校中国科学技术大学,在集结了周明、罗杰波、梅涛等多位全球杰出校友的中国科大校友创业投资论坛上,围绕“潮起大模型时代:AI创业暨投资新机遇”主题展开演讲并参与圆桌对话,现场剖析了讯飞星火认知大模型研发背后的关键要素。
讯飞研究院公众号基于以上演讲和圆桌讨论内容实录,提炼出关键观点与信息与大家分享。
大模型时代赋予算法、数据、算力三大要素新意义
人工智能三大核心要素大家已经很熟悉:算法、数据、算力,大模型时代赋予三要素新的意义:大模型、大数据、大算力。
算法:系统性创新驱动认知智能大模型这一典型的复杂智能系统我们之前提出过:目前AI落地产业的阶段,单项技术即使做得足够优秀也对产业价值带来不了太大的变化;在单点核心技术效果做好并跨越应用鸿沟的基础上,系统性创新——即实现创新链条上各关键技术的深度融合,才能解决重大的社会、科学命题或产业需求。对于认知智能大模型来说,系统性创新同样有重要的驱动意义:不论是在相关领域技术方面的深厚积累,还是在团队上拥有关键算法创新的两个核心策源地——认知智能全国重点实验室、语音及语言信息处理国家工程研究中心,都在算法层面为讯飞星火认知大模型打下了坚实基础。数据:大模型对数据的“质”与“量”有更高依赖随着大模型参数规模增大,训练的数据量也在迅速增长,大模型表现出的海量知识记忆能力也严重依赖训练数据的质量;在此基础上,各个场景数据的有效利用,能够帮助大模型实现智能涌现。认知智能带来的智能涌现也受到数据涟漪效应的推动和加速。目前,认知智能的数据标注工程从劳动密集型向知识密集型转变,源源不断的增量知识数据为大模型智能涌现打下坚实基础。讯飞星火认知大模型为“1+N”体系,“1”是通用认知智能大模型,“N”是大模型在教育、办公、汽车、人机交互等各个领域的落地。二者并进,“N”的数据和场景可以更新到“1”里、促进通用大模型的能力迭代提升;“1”的能力也能快速迭代融入到“N”的产品应用中去,实现更快速的落地。在讯飞一贯坚持的“平台+赛道”发展战略之上,我们充分利用数据涟漪效应,加速机器的智能涌现。算力:没有算力万万不能,但大算力未必万能大模型对算力展现出了比以往更强烈的需求,可以说大模型时代没有算力万万不能,但大算力未必万能,大模型的发展还需要全面考虑其他相关因素。目前,讯飞根据大模型训练和服务的技术挑战与需求,重新设计打造了大模型专用的一体化平台来支持混合异构算力调度,打通训练推理资源数据闭环。
讯飞星火认知大模型为何能在半年内研发出来?围绕刚提到的算法、数据、算力三大核心要素,讯飞拥有完整的基础资源、研究引擎、开放平台、多个行业的规模化应用,再加上成建制的团队,最终齐心协力成功研发出讯飞星火认知大模型。
从2011年语音与语言信息处理国家实验室成立开始,2014年提出“讯飞超脑”计划, 2017年认知智能国家重点实验室获批,2022年进一步推出“讯飞超脑2030”计划,讯飞在认知智能和大模型方向持续深耕,拥有十余年的技术积累;
其次,我们通过拥有400多万开发者团队的讯飞开放平台和多个真实应用的行业赛道,实现了场景积累。因此在发布星火认知大模型“1”的同时,也迅速推出“N”的落地应用成果。讯飞研究院的院训是“用正确的方法,做有用的研究”,这句话也适用于讯飞星火的研发。有了全面对标ChatGPT的48项主要任务的明确目标,在清晰的技术路径指引下,我们最终实现从0到1的突破。讯飞星火大模型的下一步目标是什么?5月6日讯飞星火认知大模型发布会上我们提出了年内三个持续升级的关键里程碑:6月9日,突破开放式问答、再升级多轮对话能力及数学能力;
8月15日,突破代码能力、多模态交互再升级;
10月24日,通用大模型能力对标ChatGPT,中文超越、英文相当。除了技术能力的升级目标之外,场景与应用落地结合也会影响技术驱动的方向。我们认为大模型的应用落地面对的并不是存量市场,因为大模型掀起的产业变革带来了巨大空间,重构出了新的市场,这也是下一步我们努力探索和实践的方向。目前,讯飞星火认知大模型已正式对行业合作伙伴和开放平台开发者开放预约。点击下方“阅读原文”访问讯飞星火认知大模型页面,即可体验。相关阅读