文章主题:关键词:GPT3.5,国内厂商,中文大模型
文|数科星球 苑晶
编辑|大兔
在那个时期,许多企业尚未了解大模型的真正含义,而GPT-3.5已经能够生成包括营销文案、小说、诗歌在内的各种高质量中文文本。因此,一段时间内,购买课程的摊贩、租赁号码的中间商以及模仿开发者的行为风靡一时。
现如今,在国内厂商严肃对待OpenAI后,情况发生了变化。
近年来,我国一些知名企业,如360、复旦大学和科大讯飞,纷纷宣称他们在中文能力方面已经超越了国际知名的人工智能助手ChatGPT。随着人工智能技术的不断发展,越来越多的公司开始注重中文能力的提升,并以此作为产品竞争的新焦点。如今,我们已经来到了2023年的8月份,可以明显看到,相较于过去,我国在人工智能领域的创新成果和竞争力越来越强。
GPT-3的推出使OpenAI在中文文本输出领域占据了有利地位。在其刚上线时,该技术能够迅速满足包括营销文案、小说和诗歌等各种类型的文本需求。仅几个月之前,这一优势为我国众多的课程销售者、租号团队以及采用套壳聊天机器人的产品提供了稳定的支持。
不过,很快,这些功能便被国内众多厂商超越,变成了大模型的“标配”功能。
经过第三方监测机构SimilarWeb的数据分析,我们发现自2023年4月起,ChatGPT开始呈现出明显的减缓趋势。到了2023年第二季度,人们的朋友圈中几乎难以见到OpenAI的身影。这一现象在科技领域被归因于竞争对手的大量涌现、垂直模型的崛起以及新技术的不断迭代。
在 august 初期,中文大模型的“千模大战”已经进入了激烈的白热化阶段。据数科星球(ID:digital-planet)团队所获得的信息,我们可以看到越来越多的企业正在积极关注下沉市场,同时也在努力推动各行业与大模型产品之间的深度融合。
这种趋势的结果是,可能会有更多的企业和机构选择使用本土产品,同时也对国外模型的市场份额造成一定影响。在数科星球(ID:digital-planet)团队体验二十余款中文大模型后,所得到的观感和上述言论趋同:即中文大模型正在变得越来越好用,并变得越来越聪明。
更为关键的是,政策层面对国内产品的扶植力度正在加强,而出于安全和自主可控等因素,ChatGPT的“没落”(至少在国内)似乎已成板上钉钉。
但国内厂商的野心还远不止“内卷”国内市场——一些公司已然将目光瞄准了海外。
科大讯飞董事长刘庆峰此前表示,其星火大模型中文已超越ChatGPT,在英文中也已接近,虽还有细微差别,但目前在进一步优化中。
为了探求国内中文大模型的发展情况,在过去的几个月中,数科星球(ID:digital-planet)团队与几十家公司进行了百余次沟通。结果是,科技圈的大佬和创业新星们对待OpenAI的态度严肃且认真。
除了在产品上进行了洗心革面式的改进,还对模型的评价体系进行了优化。
为了弥补中文大模型在评测领域的缺失,日前由清华大学、上海交通大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集于不久前推出,该评测名为C-Eval,受到了行业内的广泛关注。
在一些专业人士看来,此评测的初衷是用“锱铢必较”的方式找出中文大模型的比较优势。和以往由第三方咨询公司所主导的、带有倾向性甚至定制化的行业评比所不同的是,无论在过程和结果上,C-Eval更加透明和公开。
据了解,全套测验包含13948道多项选择题,涵盖52个不同学科和四个难度级别。其中前四名包括为清华智谱的ChatGLM2、OpenAI的GPT-4、商汤的SenseChat,APUS的AiLMe-100Bv1。
对比由微软亚洲研究院(Microsoft Research Asia)开发的基准测试AGIEval,C-Eval覆盖的领域更广。APUS技术专家张旭称:“AGIEval只覆盖了中国高考题、公务员考试题等几个类别,而C-Eval覆盖了注册电气工程师、注册计量师……等领域”,覆盖范围的拓宽意味着,除高考、公务员考试等场景外,在其他特定职业领域也可以测定大模型的能力。
从另一个角度说,C-Eval是一个对大模型从人文到社科到理工多个大类的综合知识能力进行测评的竞赛。通常,高阶难度测试是考验大模型性能的关键动作,面对复杂且有挑战性的任务,大多大模型性能会大幅下降。在C-Eval公布的评比结果中,APUS的AiLMe-100Bv1除了在平均分上进入四强,还在难题处理方面超越GPT-4*,排名第一。
据悉,C-Eval Hard(难题)类别是首个提供中文复杂推理能力的测试,“即便是GPT-4来做这个题也会很吃力,”张旭提及,“这是‘闭卷考试’,而以往如AGIEval和MMLU是‘开卷考试’,也就是说,AGIEval和MMLU是各公司自己测试、自己打分、自己公布成绩,而C-Eval Hard的评比显然更加客观、可信。”
的确,C-Eval测评难度比其他测评更高且更严格。在打分流程上,C-Eval更像是学校中为学生准备的大考模式,各个公司参加统一考试并由系统自动打分、C-Eval团队人工审核成绩并公布,所以,就结果上看,其测评所公布的成绩真实性更高。
放眼行业,大模型对于国内人工智能产业的意义非凡。
在NLP行业出现范式变革后,Transformer为主导的新一代通用大模型产品大行其道,让人们看到了AGI的曙光。甚至可以说,中国版的ChatGPT3.5/4.0的问世是我国正式迈向人工智能时代的重要标志。
在过去,一、二级资本市场对国内大模型产业意见颇多。讨论最多的是,国内公司没有在前沿技术投入太多,反而将精力侧重于“蹭”数字人、AIGC等概念之上。
客观地说,上述评价不无道理,其中不乏因大环境不好,企业对前沿投入审慎和相关技术积累薄弱等问题所导致。
但近期,随着数科星球(ID:digital-planet)对大模型行业认识的深入,以上问题正在得到改变:首先,以智源研究院、百度文心一言、商汤和APUS等企业的持续投入,我国已有多家企业具备大模型制作和运营能力(此前大多为小模型);其次,随着上半年密集的模型发布大会逐渐落幕,新模型开始迭代积累,并向着ChatGPT能力靠拢。
在我们所知的大模型产业上下游企业中,针对数据处理、清洗、标注、模型训练、推理加速等方面的技术也正在加速追赶之中;最后,政策层面已注意到发展大模型和ChatGPT的必要性,开始着手调集更多资源应对,相关生态和创新土壤也正在完备的过程中。
可以肯定的是,本次人工智能革命的核心就是通用大模型。目前,我国众多企业正在加速追赶。
现在,超越ChatGPT已成为国内AI从业者们心中的图腾。想必若假以时日,这个目标将有机会实现。而到那时,一个属于人工智能时代的大幕才彻底拉开。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!