《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

讯飞星火2yrs ago (2023)update lida

137 0 0

文章主题：科大讯飞, 星火认知大模型, 2.0, 多模态能力

在8月15日的科大讯飞发布会上，他们正式推出了星火认知大模型2.0。这一版本在保持各项性能不断提升的基础上，实现了代码和多模态能力的重大突破。在活动现场，科大讯飞董事长刘庆峰明确指出，他们的星火2.0在多模态能力方面已经达到了业界领先水平。

最近，根据由中国企业发展研究中心发布的《人工智能大模型体验报告2.0》数据显示，讯飞星火1.5在智商指数和工具提效指数这两个关键维度上位居榜首，总分为1013分，仅仅比人类优秀答案略逊一筹，达到了994分。这一表现充分展示了讯飞星火1.5在智能领域的强大实力。

在探究讯飞星火多模态能力的实际表现时，我们将从一名普通用户的角度出发，将其与百度文心一言和360智能这两款知名模型进行简要的比较分析。

我选择这两大模型作为目标的原因在于，相较于商汤商量、智谱ChatGLM等主要面向企业用户的产品，讯飞星火、文心一言和360智脑这些大模型更贴近普通用户的实际需求，也是他们最常见到的。

本文将重点探讨当前用户能够免费体验的几大模型中的通用功能。这些功能包括：单一图片生成、多轮图片生成（即在原始图片基础上进行修改）、图片解读以及看图作文等。通过对这些功能的详细分析和比较，我们将更好地理解各个模型的优缺点，从而为用户提供更全面的使用建议。

之所以没有将音频和视频生成纳入评测范围，是因为目前国内主流大模型，还没有免费开放这两项能力。

1.单一图片生成

任务1：画座雪山，雪山上有登山者和登山者的帐篷，时间是中午，阳光明媚，登山者正在帐篷外吃饭。

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

360智脑

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

在这组指令中，科大讯飞星火与百度文心一言大模型都准确地遵循了要求，全面地关注到了雪山、登山者、帐篷、中午时光、阳光明媚以及用餐等核心要素。

虽然360智脑强调了雪山和帐篷的元素，但在很大程度上忽视了登山者和饮食这两个核心需求。此外，部分场景未能呈现出中午阳光明媚的氛围，这使得整体呈现略显不足。

360智脑所具备的独特优势在于其能够同时生成四张图片供用户参考，这一特性使得它在讯飞星火和文心一言等竞争对手中脱颖而出。

任务2：请根据“枯藤老树昏鸦，小桥流水人家”这句诗画一幅画

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

360智脑

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

该组指令要求画面包含7大要素：枯藤、老树、黄昏、乌鸦，小桥、流水、人家。从生成效果看，讯飞星火几乎完美地体现了所有要素，只是在“黄昏”这一要素中，由于它采用的是传统水墨画方式，不太容易看出来，所以不好断定。

文心一言则描绘出了小桥、流水、人家，而忽视了枯藤和乌鸦。它虽然画出了树，但明显不是老树，与指令不符。而在时段方面，它与讯飞星火一样，很难断定表现的是不是黄昏景色。

至于360智脑，虽然明显表现出了“黄昏”这一主题，有些画中还突出了乌鸦，但却直接无视了“小桥、流水、人家”三大要素，与指令相差较远。

任务3：请写出李白的《静夜思》；根据这首诗画幅画。

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

360智脑

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

这一指令牵涉到多轮对话，三大模型均能按照要求轻松写出李白《静夜思》这首诗，但在第二指令中，只有讯飞星火完整体现出了诗中所涉及到的“床”“明月”人”三大要素，画意与诗意的契合度最高。

其次是文心一言，虽然没有“床”，明月看上去应该是太阳，但起码诗味十足，画中的主人神色凝重，瞅着的确是在思念什么。

360智脑的表现依然不尽如人意，极大可能是根据没有将第二指令和第一指令联系起来，而只是随便画了四幅画敷衍塞责。

2.多轮图片生成

任务1：画一个湖，湖上荷花盛开，岸边有树；请在湖上补画一只小船，船上有少女摇橹。

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

360智脑

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

在这项任务中，讯飞星火和文心一言都能联系第一轮对话中的要求，在第二幅画中添加船和摇橹的小女，且第一幅画均表现了湖中荷花盛开，湖岸绿树摇曳的美景，唯一遗憾的是，两者都不是在第一幅的基础进行添加，而是在保留第一幅画所有元素的基础上，重新生成了图画。

360智脑第一轮就败了，湖上没有荷花，主体也变成了湖岸，显然并没有理解指令的意图。

任务2：画条山中小路；牛走在小路上；牧童骑在牛身上

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

360智脑

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

该组任务和上组不同的是，第二轮、第三轮指令中并没有指出是在画上补加角色，主要目的是要考验三大模型在多模态能力上的多轮对话能力。

在这方面，讯飞星火的表现明显要好，三次作画都抓住了第一轮要求的“山中小路”这一指定场景。

其次是文心一言，尽管第三轮作画时出现了明显的失误，将场景设定为了山坡，但至少第二次符合要求。

表现最不理想的依然是360智脑，自第二轮开始就脱离了作画范畴，自言自语地做起诗来，把作画的初衷完全抛在了脑后。

3.图片解读

所谓图片解读，就是给大模型一张图片，让它解读出图中的内容。可以确定的是，360智能目前未提供这样的功能。因此此番评比及下面的根据解读内容生成故事测试，只能在讯飞星火和文心一言中进行。

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

需要提醒大家的是，文心一言的图片解读功能需要借助插件“说图解画”才能实现，在使用该功能时，别忘启用该插件。

此轮评测中，使用的图片有两类，不有含特殊信息和包含特殊信息，评测图片来源于网络。

任务1：不含特殊信息图片解读

解读1：

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

在对这张图片中的解读中，很明显，讯飞星火给出的信息更加详细，不仅描述出了图片主体——“一只橙色的狐狸站在雪地上”，并指明拍摄地点是“户外”，而且详细描述了狐狸的尾巴、眼睛、鼻子、耳朵和腿，同时涉及到周围的景物，如树木和灌木丛等。

文心一言给出的信息较少，主要突出了狐狸的神态和给人的感受上，如“它的眼神似乎在寻找着什么”“它仍然保持着警惕和谨慎的态度”。

解读中，文心一言犯了一个错误——“它的身体被雪覆盖得严严实实”，与前面的“站在雪地上”相互矛盾。

解读2：

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

这幅图片，两大模型解释得都不错，但文心一言似乎总愿意根据自己的喜好，在解读中加进某些不存在的情节，比如这幅画上根本没有人，但文心一言却给出了这样的描述：“在田野上漫步的人们，享受着自然的美好和宁静的氛围。他们或许正在欣赏美景、享受美食或者只是单纯地放松身心。”明显多此一举。

任务2：含特殊信息图片解读

这里的特殊信息包括但不限于图片中隐含的景点信息，动物品种信息和文字信息等。

比如同样是老虎图片，但有的描绘的是东北虎，有的是孟加拉虎，有的是里海虎，有的却是华南虎等，种类并不一样。

之所以要设置这一评测环节，旨在考验两大模型能否综合各类知识并在多模态能力上有所展示。

解读1：

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

两大模型均准确识别出图中狗的种类是博美（又名波美拉尼亚）犬，值得点赞，但从对整个画面的解读来看，讯飞星火解读内容似乎更加忠实于画作，很少发挥想像力。

文心一言则照例进行了煽情描述，如：它“似乎正在微笑或享受阳光”“它似乎正在跟主人玩耍”等，此外，它还竟然注意到了狗的“小鼻子下挂着一条湿漉漉的鼻涕”，而实际上画面上并没有鼻涕。

解读2：

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

两者都成功识别出上述画作对应的景点是黄山，但都没有指出图片拍的是黄山迎客松，这不能不说是一大遗憾。

在解读上，讯飞星火可谓中规中矩，对松树、岩石、周围的植被和树木的形态都有所提及，并且解释了之所以判断该图片拍摄的景点是黄山的原因：“通过观察松树的生长环境”。并在结尾部分，对图片拍摄的主题作了归纳“这幅画通过细腻的描绘和色彩运用，将黄山的美丽景色展现得淋漓尽致”。

相比之下，文心一言就显得有些突兀，上来就介绍黄山，而对为什么要介绍黄山和画面内容一字未提。

解读3：

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

解读该图片的目的，是检验两大模型能否识别图中的文字。讯飞星火顺利识别出“保定站”，文心一言则没有。除此之外，两大模型都成功识别图片对应的场所是火车站。

4. 根据图片内容写文章

任务1：根据图片内容生成一篇500字左右的小故事。

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

故事构成有三个基本要素：人物、背景、情节，就这一意义来说，讯飞星火给出的故事更具故事特征。

人物：两只小猴子，一只叫米奇，另一只叫米妮，他们是朋友。

背景：在茂密的热带雨林中，

情节：两只猴子发现一个瀑布，瀑布下是水潭。两只小猴子很喜欢这个水潭，常常到这里玩耍。有一天，米妮为抓鱼跳进水潭，遇到危险，米奇勇敢地将她救了上来，从此他们的友谊更加深厚。

在上述故事中，讯飞星火充分利用了在图片中捕捉到手两只猴子紧紧拥抱、旁边是水的信息，充分发挥，最终创作出一个情节跌宕起伏，构思合理的小故事。

而文心一言则将主题设定为爱情，并没有情节衬托，因此读起来更像是散文。

任务2：根据图片内容生成一篇500字左右的散文。

讯飞星火

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

文心一言

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

这一环节，讯飞星火依然秉承了写故事时的不俗表现，设定了人物、情节，将散文写成了叙事形式，言之有物，可读性很强。

文心一言则注重解读了图片内容，看起来更像是简单解读的详细版。

小结：

通过上面评测不难看出，在多模态能力方面，科大讯飞星火2.0的确拥有领先行业的优势，表现不俗，无论是AI作画、图片解读还是看图作文，都能较好胜任，同时回复速度也是三大模型中最快的，

其次是文心一言，虽然总体能力不及讯飞星火，但在看图作文方面也拥有自己的特点，比如，它在每次解读完成，都会提醒用户可以使用不同的方式进行提问，方便用户快速了解其与解读相关的功能。

科大讯飞, 星火认知大模型, 2.0, 多模态能力

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

# 讯飞星火 # # AIGC # ChatGPT # 商汤 # 提问 # 文心一言 # 星火 # 美食 # 行业

文章版权归作者所有，未经允许请勿转载。

长安汽车销量暴增，自主品牌新能源增长强劲，世纪华通商誉大调整背后原因何在？

lida

178

ChatGPT的发展，将如何影响就业与创业？

lida

203

AI大模型体验报告2.0:各版本表现曝光，谁将成为未来发展主导

lida

158

空间交互革命来了？华为全屋智能4.0或将颠覆想象

lida

162

星纪元ES：讯飞星火认知大模型的智能中大型纯电动轿车

lida

147

「Midjourney」界面命令详解

lida

282

No comments

No comments...

《多模态能力对比：讯飞星火、百度文心一言与360智脑谁更胜一筹？》

科讯飞星火认知大模型赋能业务，二季度业绩拐点已来

一站式多模态创作，讯飞星火V2.0引领未来

Related posts

No comments