距离科大讯飞董事长刘庆峰所说,10月24日“超过”ChatGPT的时间点,还有不到70天。
自今年初以来,Chatgpt引领了一场持续至今的国产大模型热潮。资金涌入这个领域,促使一些原本远离商业竞争的技术领袖重新回归,也有助于推动已经发展多年的项目实现重大突破。这一现象背后的原因是,所有人都认为这标志着一场新的革命性变革的来临。
科大讯飞是这些竞争者中特殊的一个。
这是一家成立24年,超过1万名员工的老牌公司。但它在技术上又离这场关于人工智能的革命很近。
科大讯飞在我国众多科技公司中,与Transformer框架的关联最为紧密,尤其在语音识别、图文识别以及机器翻译等关键领域,早在多年前就已经采用了Transformer框架进行构建,这使得科大讯飞在这些领域的优势地位更加稳固。
庞大的数据积累是这些技术成果的基石。科大讯飞拥有丰富的行业语料库,每天有超过10亿次的用户互动,这些数据为公司的技术研发提供了强大的支持。
在5月6日的科大讯飞发布会现场,刘庆峰以 article writing 高手的身份,自信地阐述着今年讯飞星火认知大模型技术升级的三个关键里程碑节点,这使得他表现得格外从容不迫。
6月9日,讯飞星火将突破开放式问答、多轮对话能力明显提升、数学能力再升级。
8月15日,代码能力升级以及多模态交互能力提升。
在10月24日,我国将实现通用模型对标ChatGPT的重要突破。我们的中文模型将在当前版本上超越ChatGPT,同时在英文方面也能够达到相当的水平。此外,我们的通用模型还将会在教育、医疗等领域发挥出业界领先的作用。这一成果的实现,标志着我国人工智能领域又向前迈进了一步。
现在这个目标走到中段。
讯飞星火认知大模型V2.0来了
在众多大模型的能力指标中,代码能力被视为推动认知大模型智慧的核心要素。据OpenAI发布的代码能力公开测试集HumanEval显示,星火认知大模型V1.5在Python语言上的表现仅为41分,然而这却是星火认知大模型V2.0中最引人注目的性能提升之一。
作为一名文章写作高手,我会将原文进行重新组织,使其表达更为专业和高水平。例如,星火认知大模型2.0能够实现以自然语言输入为基础,生成符合要求的密码识别函数。这种函数的特点在于,其长度至少为8位,同时必须包含大小写字母、数字以及特殊符号。通过这样的技术手段,我们可以有效提升密码的安全性和复杂性,进一步保护用户的信息安全。
图源:科大讯飞
星火认知大模型V2.0的功能十分强大,它能够支持Python编程语言来绘制各种复杂的图形,例如红色的心形线、马鞍面方程的三维立体图,甚至可以设置渐变色。此外,该模型还可以直接通过代码生成贪吃蛇小游戏。这些功能使得星火认知大模型V2.0在图形绘制和编程领域具有广泛的应用前景。
图源:科大讯飞
但对于大部分人来说更直观的,或许是一个直接从视频转成gif的演示。
“使用python处理视频星火.m4v,提取其中第2到10秒,把画面缩小一半,加速5倍,保存成gif图片。”
科大讯飞研究院院长刘聪对星火认知大模型2.0输入了这样一段只要有编程基础知识就能理解的句子,然后很快在文件夹里得到了所要求的那个gif文件。这个实用功能可以非常快速的把任何一段视频变成表情包。
在测试集HumanEval中,星火认知大模型2.0在Python语言的效果评分达到了61分。在代码生成、代码补齐、代码纠错、代码解释、单元测试生成五个维度的代码能力上相比星火认知大模型1.5有了单项最高28%的能力增长,并且在代码生成和代码补齐两项能力上超过ChatGPT。
而在同一测试集Java、JS、C++语言上的代码表现,星火认知大模型V2.0也都超过了40分,代码水平逐渐接近ChatGPT。根据刘庆峰所说,讯飞星火代码各维度的能力将在今年10月24日超越ChatGPT,明年上半年对标GPT-4。
代码能力度量一个大模型在思维能力上的深度。但对于星火认知大模型来说,它的迅速迭代并不只是为了与更先进的大模型对标,也是为了“超脑2030计划”奠定基础。
科大讯飞在2022年云年会上启动了这个让机器人走进每个家庭的“讯飞超脑2030计划”。刘庆峰将其比作科大讯飞的一场“登月计划”,他认为如果没有陪伴机器人进入每一个家庭,人类社会的美好未来是不可能实现的。
图源:科大讯飞
这个战略性目标的核心技术就是多模态能力。这也是星火认知大模型V2.0在代码能力之外,另一个核心的能力提升方向。
星火认知大模型V2.0现在具有生成人物、风景等各类照片,生成班级手抄报,或者根据古诗词“作画”的多模态能力。并且在图片输入的理解能力方面,星火认知大模型V2.0可以在一幅景致复杂的照片中辨认出一辆SUV,或是辨别出一幅图片中的狗是一只柯基。
值得注意的是,刘聪在发布会现场以一张复杂的家庭场景照片考验星火认知大模型V2.0,后者不只是可以“读出”整张照片的内容,也准确识别出这个杂乱场景中一盆绿色盆栽在图片中所描绘空间中的具体位置。这种感知和认知能力对未来像家庭陪伴机器人这样的新物种出现有非常重要的意义。
图源:科大讯飞
“多模态能力是赋能行业的刚需,也是实现通用人工智能的必经之路”,刘庆峰强调,“多模态能力也是科大讯飞既定的人工智能技术长期战略。”
从代码能力走向iFlyCode1.0
新华社研究院近日发布的一份国产大模型报告中,星火认知大模型在一个对标接受过高等教育的人类水平,按基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行权重设计的测试集中,在智商评估、工作效率两个维度测试项分数最高,总体评分压过文心一言等国产主流大模型,位列测评榜第一。
各种不同维度的大模型横评测试中,参与者越来越多。今年上海人工智能大会(WAIC)上展出的大模型就超过了30个。在那之前,5月中关村论坛上发布的《中国人工智能大模型地图研究报告》显示,参数在10亿规模以上的国产大模型在当时已发布了79个,这一数字在7月破百。所谓的“百模大战”至少在竞争者数量上已经名副其实。
星火认知大模型V2.0发布的同一天(8月15日),《生成式人工智能服务管理暂行办法》开始实行,也意味着这场“百模大战”将从上游的大模型基础能力竞争,转入一种更激烈的产品层面竞争。
星火认知大模型V2.0的能力也以更多应用的形式,更具体的呈现出来。
对于开发者来说,大模型的代码能力最终需要放在开发环境里才有意义。基于星火认知大模型V2.0的代码能力,讯飞星火发布了一款智能编程助手的应用级产品——iFlyCode1.0。
图源:科大讯飞
刘聪用曾在科大讯飞在去年全球1024开发者节期间展示过的,用两个手指捏合写字的“凌空手写”功能来展示了iFlyCode1.0的强大能力。只需要以自然语言的形式输入Prompt(提示词),iFlyCode1.0就可以提供具体分步实现的步骤,同时提供需要导入的package(软件包)。整个过程不需要手写一行代码,本来至少需要半天的开发过程,现在通过iFlyCode1.0只需要几分钟就可以完成。
刘庆峰表示,在发布会之前,科大讯飞研发效能平台已经用2000多名内部开发人员作为样本,对iFlyCode1.0的开发效率做了周期一个月左右的内测,结果显示在一些典型场景中,iFlyCode1.0代码采纳率达30%,编码效率提升30%,综合效率提升15%。
星火认知大模型2.0的多模态能力则促成了科大讯飞在AIG上的应用升级——讯飞智作2.0。
讯飞智作目前已经是一个拥有超过375万总用户量,生产出超过2100万个视频作品的AIGC内容生产平台。在背后的大模型能力升级后,讯飞智作2.0能够更精确的理解用户的创作意图,满足多元的视频制作需求。
图源:科大讯飞
刘聪发布会现场用讯飞智作2.0做了一个介绍黄山毛峰茶叶的视频,在输入对于视频的内容要求后,讯飞智作2.0会自己寻找关于茶叶的产地、包装、色泽等特点的准确信息。整个过程非常快,并且极大降低了视频创作的技术门槛。
平行的两条进化路线
2010年科大讯飞推出讯飞云平台(后为讯飞开放平台)与讯飞输入法后,曾经提出了一个“涟漪效应”的观点。
“涟漪效应”是说人工智能相关技术被人们所使用的这个过程是一点点扩散的。当使用者越来越多,数据和反馈也会变多,系统误差在大量数据的修正中变得越来越小,就像水纹向外的震荡一样。
“涟漪效应”这个在十多年前看来非常直觉性的观念,在星火认知智能大模型这件事上有一个更明确的描述。
“1+N”。
科大讯飞将教育、办公、医疗等场景看作“N”,星火认知智能大模型则是放在“N”之前的“1”。OpenAI去年11月30日发布ChatGPT后仅仅15天(12月15日),科大讯飞就启动了“1+N”认知智能大模型的专项攻关。
也就是说,星火认知大模型从最初开始就有两条并行的进化过程。
一条是抽象层面的能力进化。
星火认知大模型的V1.0版本更像一个不错的文科生。基于科大讯飞本身在NLP领域的技术积累,星火认知大模型V1.0已经能够较好地完成中英文论文、品宣文案等丰富内容形式的撰写。但除了文本生成和语言理解,星火认知大模型V1.0在知识问答、逻辑推理、数学能力、代码能力、多模态方面的素质仍亟待进化。
星火认知大模型V1.5开始逐渐“文理双修”——它可以做高考数学试卷了。相比V1.0版本,星火认知大模型V1.5在文本生成、语言理解、逻辑数学能力和代码能力方面有最高10%的能力提升,在知识问答方面的提升则达到24%。逻辑能力是星火认知大模型V1.5相比之前提升最大的能力维度,它已经迭代出了不错的多轮对话能力。
直到星火认知大模型V2.0,其在多模态以及代码能力上的迭代并不是无迹可寻。多模态是AI理解世界的长期方向,而生成式AI的需求普及意味着写代码这件事本身势必会一步步降低门槛。
除了模型能力的迭代,星火认知大模型的另一条进化路线在于产业。
教育产业是科大讯飞软硬件体系的核心场景之一,讯飞的智慧课堂(畅言智慧课堂)已经在全国1200多万师生中广泛使用。星火认知大模型2.0的能力提升也快速反应到了这里。
图源:科大讯飞
青少年教育开始实现以素养培养为核心的教育三新(新课标、新教材、新高考)改革,这对教师提出了在教学设置上的变化和挑战。为此科大讯飞推出了星火教师助手,后者在星火认知大模型V2.0的理解能力基础上,可以根据学科内容进度完成单元教学设计、课堂活动设计,甚至一键生成课件。
刘庆峰表示,在上海、广东、安徽等一线教师试点体验后,结果显示星火教师助手可以提升50%以上的单元教学规划和课件制作效率,教学活动丰富度也提升了20%以上。
作为口语陪练老师的星火语伴此次升级到了2.0版本,主题对话数量从73个提升到了393个,多模态能力下的虚拟人沉浸式陪练机制进一步加强。并且相比之前,星火语伴2.0新增了CET、雅思、托福的智能评价反馈以及新的情景交流功能,后者支持图片、文档自定义情景。
而星火认知大模型V2.0强势的代码能力则会成为学校的教育数字基座。对教育场景理解最深,但并不具备代码编译能力的教职人员可以把教育数字基座作为自己的开发助手,来搭建最适合学生的教育应用。根据上海、湖北等试点学校的应用成效,教育应用的开发周期和投资成本都大幅度降低。
图源:科大讯飞
刘庆峰也表示,代码能力不仅应用于讯飞教育数字基座,也广泛应用于医院、大学、企业、政府等不同的机构,通过iFlyCode都可以实现快速搭建和低成本迅速呈现。
“这就是我们说的通用人工智能为什么会深刻改变今天以人力和时长为主要逻辑的商业模式,实现整个产业的彻底的颠覆和升级”。
而随着星火认知大模型在教育、医疗、工业、办公等领域落地应用,一个更广袤的开发者生态正在形成。从6月9日星火认知大模型V1.5发布至今,新增了7862款星火助手,有4109多个助手开发者团队加入进来。而在科大讯飞的人工智能开放平台角度,目前已经有500多项能力开放给各领域的创业者和合作伙伴去调用以构建各种新的应用。
“在通用人工智能上,一定还是要坚持我们价值创造的根本,那就是要有能看得见摸得着的场景,能规模化推广的应用和产品,同时能够用统计数据来证明我们的应用成效。”刘庆峰在不久前的一场论坛上表示。
这条关于产业的进化道路可能是科大讯飞更加看重的。而这么多场景的可能性,被更具像化的集成到一款新发布的“星火一体机”上。
一个更具体的方案
《生成式人工智能服务管理暂行办法》的实行意味着大模型竞争从基础能力转向产业,而对于人工智能安全可控的诉求则变成了进入这场竞争的前提。
安全可控、场景驱动和专属定制则是科大讯飞认为大模型在未来进入产业时需要具备的三个关键要素,而星火一体机则是为此准备的一个国产软硬件一体化私有专属大模型解决方案。
刘庆峰介绍,星火一体机能够实现模型训练和推理的一体化部署,并且针对星火模型的训练算法和推理应用进行了硬件定制,大大降低使用成本。其可以应用于问答、对话、知识图谱、推荐等多个领域。提供从底层算力、AI框架、训练算法到应用效果的全栈AI能力,针对企业个性化的需求来定制企业专属大模型。
图源:科大讯飞
在场景宽度上,星火一体机基于科大讯飞在多行业积累的场景落地经验,内置了办公、代码、运维、客服、营销、采购等10多个场景包,支持对话开发、任务编排、插件执行、知识接入、提示工程等5种定制优化模式,并将持续拓展更多专业场景和模式优化。
在核心的安全可控方面,星火认知大模型针对污语料和幻觉问题形成立体化的“内容安全机制”,保障大模型进入行业之后的内容安全;华为将会作为科大讯飞的合作伙伴保障算力安全。星火一体机基于昇腾AI硬件、昇思AI开源框架,提供业界领先的大模型训练、推理能力,为大模型全流程创新提供坚实的自主创新算力底座。
“中国人工智能的发展,尤其是拥抱这次通用人工智能,绝不仅仅是单个企业、单个科研院所的工作和使命,而是整个社会的机会。”刘庆峰表示,“而在这个过程中,生态的发展决定了产业的繁荣,也是我们一直在孜孜不倦追求的事情。”
科大讯飞, 人工智能, 模型, 多模态能力
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!