文章主题:科大讯飞, 星火认知大模型, 2.0, 多模态能力
在8月15日的科大讯飞发布会上,他们正式推出了星火认知大模型2.0。这一版本在保持各项性能不断提升的基础上,实现了代码和多模态能力的重大突破。在活动现场,科大讯飞董事长刘庆峰明确指出,他们的星火2.0在多模态能力方面已经达到了业界领先水平。
最近,根据由中国企业发展研究中心发布的《人工智能大模型体验报告2.0》数据显示,讯飞星火1.5在智商指数和工具提效指数这两个关键维度上位居榜首,总分为1013分,仅仅比人类优秀答案略逊一筹,达到了994分。这一表现充分展示了讯飞星火1.5在智能领域的强大实力。
在探究讯飞星火多模态能力的实际表现时,我们将从一名普通用户的角度出发,将其与百度文心一言和360智能这两款知名模型进行简要的比较分析。
我选择这两大模型作为目标的原因在于,相较于商汤商量、智谱ChatGLM等主要面向企业用户的产品,讯飞星火、文心一言和360智脑这些大模型更贴近普通用户的实际需求,也是他们最常见到的。
本文将重点探讨当前用户能够免费体验的几大模型中的通用功能。这些功能包括:单一图片生成、多轮图片生成(即在原始图片基础上进行修改)、图片解读以及看图作文等。通过对这些功能的详细分析和比较,我们将更好地理解各个模型的优缺点,从而为用户提供更全面的使用建议。
之所以没有将音频和视频生成纳入评测范围,是因为目前国内主流大模型,还没有免费开放这两项能力。
1.单一图片生成
任务1:画座雪山,雪山上有登山者和登山者的帐篷,时间是中午,阳光明媚,登山者正在帐篷外吃饭。
讯飞星火
文心一言
360智脑
在这组指令中,科大讯飞星火与百度文心一言大模型都准确地遵循了要求,全面地关注到了雪山、登山者、帐篷、中午时光、阳光明媚以及用餐等核心要素。
虽然360智脑强调了雪山和帐篷的元素,但在很大程度上忽视了登山者和饮食这两个核心需求。此外,部分场景未能呈现出中午阳光明媚的氛围,这使得整体呈现略显不足。
360智脑所具备的独特优势在于其能够同时生成四张图片供用户参考,这一特性使得它在讯飞星火和文心一言等竞争对手中脱颖而出。
任务2:请根据“枯藤老树昏鸦,小桥流水人家”这句诗画一幅画
讯飞星火
文心一言
360智脑
该组指令要求画面包含7大要素:枯藤、老树、黄昏、乌鸦,小桥、流水、人家。从生成效果看,讯飞星火几乎完美地体现了所有要素,只是在“黄昏”这一要素中,由于它采用的是传统水墨画方式,不太容易看出来,所以不好断定。
文心一言则描绘出了小桥、流水、人家,而忽视了枯藤和乌鸦。它虽然画出了树,但明显不是老树,与指令不符。而在时段方面,它与讯飞星火一样,很难断定表现的是不是黄昏景色。
至于360智脑,虽然明显表现出了“黄昏”这一主题,有些画中还突出了乌鸦,但却直接无视了“小桥、流水、人家”三大要素,与指令相差较远。
任务3:请写出李白的《静夜思》;根据这首诗画幅画。
讯飞星火
文心一言
360智脑
这一指令牵涉到多轮对话,三大模型均能按照要求轻松写出李白《静夜思》这首诗,但在第二指令中,只有讯飞星火完整体现出了诗中所涉及到的“床”“明月”人”三大要素,画意与诗意的契合度最高。
其次是文心一言,虽然没有“床”,明月看上去应该是太阳,但起码诗味十足,画中的主人神色凝重,瞅着的确是在思念什么。
360智脑的表现依然不尽如人意,极大可能是根据没有将第二指令和第一指令联系起来,而只是随便画了四幅画敷衍塞责。
2.多轮图片生成
任务1:画一个湖,湖上荷花盛开,岸边有树;请在湖上补画一只小船,船上有少女摇橹。
讯飞星火
文心一言
360智脑
在这项任务中,讯飞星火和文心一言都能联系第一轮对话中的要求,在第二幅画中添加船和摇橹的小女,且第一幅画均表现了湖中荷花盛开,湖岸绿树摇曳的美景,唯一遗憾的是,两者都不是在第一幅的基础进行添加,而是在保留第一幅画所有元素的基础上,重新生成了图画。
360智脑第一轮就败了,湖上没有荷花,主体也变成了湖岸,显然并没有理解指令的意图。
任务2:画条山中小路;牛走在小路上;牧童骑在牛身上
讯飞星火
文心一言
360智脑
该组任务和上组不同的是,第二轮、第三轮指令中并没有指出是在画上补加角色,主要目的是要考验三大模型在多模态能力上的多轮对话能力。
在这方面,讯飞星火的表现明显要好,三次作画都抓住了第一轮要求的“山中小路”这一指定场景。
其次是文心一言,尽管第三轮作画时出现了明显的失误,将场景设定为了山坡,但至少第二次符合要求。
表现最不理想的依然是360智脑,自第二轮开始就脱离了作画范畴,自言自语地做起诗来,把作画的初衷完全抛在了脑后。
3.图片解读
所谓图片解读,就是给大模型一张图片,让它解读出图中的内容。可以确定的是,360智能目前未提供这样的功能。因此此番评比及下面的根据解读内容生成故事测试,只能在讯飞星火和文心一言中进行。
需要提醒大家的是,文心一言的图片解读功能需要借助插件“说图解画”才能实现,在使用该功能时,别忘启用该插件。
此轮评测中,使用的图片有两类,不有含特殊信息和包含特殊信息,评测图片来源于网络。
任务1:不含特殊信息图片解读
解读1:
讯飞星火
文心一言
在对这张图片中的解读中,很明显,讯飞星火给出的信息更加详细,不仅描述出了图片主体——“一只橙色的狐狸站在雪地上”,并指明拍摄地点是“户外”,而且详细描述了狐狸的尾巴、眼睛、鼻子、耳朵和腿,同时涉及到周围的景物,如树木和灌木丛等。
文心一言给出的信息较少,主要突出了狐狸的神态和给人的感受上,如“它的眼神似乎在寻找着什么”“它仍然保持着警惕和谨慎的态度”。
解读中,文心一言犯了一个错误——“它的身体被雪覆盖得严严实实”,与前面的“站在雪地上”相互矛盾。
解读2:
讯飞星火
文心一言
这幅图片,两大模型解释得都不错,但文心一言似乎总愿意根据自己的喜好,在解读中加进某些不存在的情节,比如这幅画上根本没有人,但文心一言却给出了这样的描述:“在田野上漫步的人们,享受着自然的美好和宁静的氛围。他们或许正在欣赏美景、享受美食或者只是单纯地放松身心。”明显多此一举。
任务2:含特殊信息图片解读
这里的特殊信息包括但不限于图片中隐含的景点信息,动物品种信息和文字信息等。
比如同样是老虎图片,但有的描绘的是东北虎,有的是孟加拉虎,有的是里海虎,有的却是华南虎等,种类并不一样。
之所以要设置这一评测环节,旨在考验两大模型能否综合各类知识并在多模态能力上有所展示。
解读1:
讯飞星火
文心一言
两大模型均准确识别出图中狗的种类是博美(又名波美拉尼亚)犬,值得点赞,但从对整个画面的解读来看,讯飞星火解读内容似乎更加忠实于画作,很少发挥想像力。
文心一言则照例进行了煽情描述,如:它“似乎正在微笑或享受阳光”“它似乎正在跟主人玩耍”等,此外,它还竟然注意到了狗的“小鼻子下挂着一条湿漉漉的鼻涕”,而实际上画面上并没有鼻涕。
解读2:
讯飞星火
文心一言
两者都成功识别出上述画作对应的景点是黄山,但都没有指出图片拍的是黄山迎客松,这不能不说是一大遗憾。
在解读上,讯飞星火可谓中规中矩,对松树、岩石、周围的植被和树木的形态都有所提及,并且解释了之所以判断该图片拍摄的景点是黄山的原因:“通过观察松树的生长环境”。并在结尾部分,对图片拍摄的主题作了归纳“这幅画通过细腻的描绘和色彩运用,将黄山的美丽景色展现得淋漓尽致”。
相比之下,文心一言就显得有些突兀,上来就介绍黄山,而对为什么要介绍黄山和画面内容一字未提。
解读3:
讯飞星火
文心一言
解读该图片的目的,是检验两大模型能否识别图中的文字。讯飞星火顺利识别出“保定站”,文心一言则没有。除此之外,两大模型都成功识别图片对应的场所是火车站。
4. 根据图片内容写文章
任务1:根据图片内容生成一篇500字左右的小故事。
讯飞星火
文心一言
故事构成有三个基本要素:人物、背景、情节,就这一意义来说,讯飞星火给出的故事更具故事特征。
人物:两只小猴子,一只叫米奇,另一只叫米妮,他们是朋友。
背景:在茂密的热带雨林中,
情节:两只猴子发现一个瀑布,瀑布下是水潭。两只小猴子很喜欢这个水潭,常常到这里玩耍。有一天,米妮为抓鱼跳进水潭,遇到危险,米奇勇敢地将她救了上来,从此他们的友谊更加深厚。
在上述故事中,讯飞星火充分利用了在图片中捕捉到手两只猴子紧紧拥抱、旁边是水的信息,充分发挥,最终创作出一个情节跌宕起伏,构思合理的小故事。
而文心一言则将主题设定为爱情,并没有情节衬托,因此读起来更像是散文。
任务2:根据图片内容生成一篇500字左右的散文。
讯飞星火
文心一言
这一环节,讯飞星火依然秉承了写故事时的不俗表现,设定了人物、情节,将散文写成了叙事形式,言之有物,可读性很强。
文心一言则注重解读了图片内容,看起来更像是简单解读的详细版。
小结:
通过上面评测不难看出,在多模态能力方面,科大讯飞星火2.0的确拥有领先行业的优势,表现不俗,无论是AI作画、图片解读还是看图作文,都能较好胜任,同时回复速度也是三大模型中最快的,
其次是文心一言,虽然总体能力不及讯飞星火,但在看图作文方面也拥有自己的特点,比如,它在每次解读完成,都会提醒用户可以使用不同的方式进行提问,方便用户快速了解其与解读相关的功能。
科大讯飞, 星火认知大模型, 2.0, 多模态能力
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!