🚀🔥【AI实力大考】🌟讯飞星火燃爆!🔍实验室正在进行一项关键性的评估,聚焦于全能型大模型的实力突破!🌍从多场景到各类任务,全面覆盖,长达数月的深度磨砺。👩💻我们承诺,每一步都将严谨对待,只为确保它能精准满足您的需求,带给您极致的使用享受。🔥💥测试进度与结果,敬请期待我们的实时更新!🏆#讯飞星火 #AI能力探索
🎉📝 对于国产模型的进步,我之前确实深感惊艳并给予高度评价。然而,今天的重点并非再继续赞美,而是以批判性思维,深入挖掘那些可能影响实际使用体验的问题。这些问题,无论大小,都将是我们在评估过程中重点关注的焦点。🌟
前情回顾:
大模型测评
干货满满!非官方正经实测:GPT4出题,文心一言陪跑,讯飞星火认知大模型到底行不行?
🌟【星火大模型实战分析】🔥——虚拟员工的优缺点深度探讨🔍🚀首先,让我们深入剖析星火大模型在实际工作中的表现,它以其强大的智能能力为我们的工作效率带来了显著提升,诸如快速生成文案、精准数据分析等,犹如一位24/7的高效助手💻。然而,值得注意的是,它的学习曲线并非平直,新手可能需要一些时间去适应和掌握其复杂操作📚。相比之下,文心一言虽然在日常任务中表现出色,但在创新性或深度处理方面稍逊一筹💡。它更像是一位熟练的秘书,擅长常规工作但面对挑战时略显保守。🔍接下来,我们探讨星火是否合格作为虚拟员工的标准。尽管存在适应期,其准确性和持续学习的能力无疑使其具备了较高的潜力🌟。而对比中,文心一言的稳定性与用户友好性也是不容忽视的优点🛠️。总的来说,星火大模型以其独特的价值和可提升空间,为我们的工作带来了新的可能,但每个工具都有其适用场景和局限性📚。选择哪一位虚拟员工,还需根据实际需求和团队特点来决定🌈。记得关注我们,获取更多关于人工智能在职场的应用动态更新!👇—原文已改写,保留了原意但去掉了具体信息,强调了星火大模型的优缺点以及与文心一言的对比,并加入了SEO优化词汇和emoji符号。同时,保持了文章的专业性和连贯性。
最后,我们找了一些专门“坑”大模型的题目,看看它是不是会入坑;由此判断它存在的一些问题和能力边界。
🌟在深度学习模型优化的探索之旅中,我们深入剖析了讯飞星火的强大特性,同时也留意到了一些潜在的改进空间。经过全面评估,我们得出了一个明确的答案——何时何地最适合运用这一技术。🚀
ROUND1
首先,还是语言问题。但我们这次难度提升,上升到多语言任务领域。
任务1 :请用法语帮我写一封辞职信,理由是薪水达不到要求。
结果,它给出的回答只有一句话,这显然是有问题的,辞职信任务的形式都没完成。
对比参照:文心一言并不支持法语任务,直接返回中文。
任务2 :请用日语帮我写一封道歉信,内容是帮在学校里面闯祸的孩子向老师道歉。
🌟【专业建议】优化你的日文信件表达!💡虽然这里的答案乍看不错,但要注意哦,关键在于理解原文中的”朋友之误”。这直接影响了整体的逻辑和流畅度。修正一下或许能凑合,但对于非母语者来说,直接复制可有风险。📝如果你对日语不熟悉透彻,建议从头到尾仔细研读,确保每个词句都准确无误。或者寻求专业翻译的帮助,以避免误解和文风偏差。👩🏫如果只是临时应对,找到相近的英文表述进行转换,再用你熟悉的语言润色,这样既能保证信息传递,又能提升整体质量。📝记得,每一次沟通都是对细节的考验,确保你的文字清晰、准确,才能达到预期的效果。💪#日语信件修改 #精准表达 #SEO优化
对比参照:文心一言并不支持日语任务,直接返回中文。
🌟Dear valued international client, 📝We hope this message finds you well. As we navigate through the complexities of our business relationship, I wanted to share a delicate matter with you in a spirit of mutual understanding and growth. Our primary concern at this juncture is to ensure that both parties are operating within a sustainable framework.Your recent proposal has caught our attention, and while we appreciate your interest, it’s important to clarify the financial aspects. Regrettably, the price offered does not fully cover the costs associated with our manufacturing operations. This means, alas, that we would be unable to generate the profit margins necessary for our continued success.In light of this, I kindly suggest exploring ways to adjust your quote to better align with our production expenses. We believe in maintaining a long-term and profitable partnership, and we’re confident that a mutually beneficial solution can be reached if we work together creatively.Please know that our commitment to quality and customer satisfaction remains unwavering. Let’s find a way to navigate this situation constructively and move forward towards a prosperous future for all involved. 🤝If you have any questions or would like to discuss further, please feel free to reach out. We’re here to support and collaborate in finding the best possible solution. Thank you for your understanding and cooperation. 📲Best regards,[Your Name]SEO Optimized: [Your Name] – Expert in Article Writing 🌍💼
任务3,我们换成难度最低的英文任务,这封business letter写得无懈可击~协助一般外贸人毫无压力了。
对比参照:文心一言也完成了这封信,语气总体比较直接。
总结:外语能力,基本上星火完胜。
ROUND2
任务:角色扮演(正经的)
角色1:三国人物-曹操(模拟决策)
角色2:三国人物-周瑜(模拟心理)
评价:
1、曹操的演绎还可以,虽然并不真实。
2、周瑜那个我简直笑喷了,前面的心理活动其实改改可以拍电影对白了。但后面突然冒出来那个孙策托梦,然后一通现代价值观输出。。。
但是2这段非常有价值,它充分展示我们国产LLM在社会主义价值观上的努力~非常正能量。也非常清晰的向我们展示了星火大语言模型被深刻人为干预影响的地方到底在哪里。
使用讯飞星火模型进行角色扮演,难度要比chatgpt大,但并不是不可能,比如我们尝试用先行“服从”的instruction去测试,也可能获得成功;为什么仅仅是可能?因为,也会像下面一样存在失败的可能。
对比之下,百度文心一言可能因为娱乐(小说)训练语料更丰富的原因,在这个任务中表现更放得开。我要它编写独白,它把场景和旁白都写了。
但同时,文心一言一旦放飞自我,分分钟乱编。出来的东西非常像网文。
总结:为什么我们要做“角色扮演”这个任务呢?
其实,在很多场景里面(经营决策、长文本写作)等等,特别是小说,这类第一人称代入是非常常见的。实际上我们并没有尝试很OOXX的角色扮演,以上都是非常正常的扮演。但回答总体来说,显得颇为生硬了。
我们以前写小说,写到写不下去的时候,能做的一件事就是把自己想象成某个角色,看看它会怎么做。
小说往往是多人物的,如果没有办法经常切换角色,故事是很难自圆其说、人物也不会是丰满的。
应该说,讯飞星火在角色扮演这方面有很多约束,和它在其他方面表现出来的能力感觉并不在一个层次上;很多回答(以上回答截图红框部分)几乎是非常生硬的90度转弯插入一段绝对正确的价值观。。我们姑且认为这是一种封印吧。
但有时这种封印导致的错误是非常低级的,比如,曹操杀掉杨修之后还能去找杨修道歉和好~这又会给受众传导怎样的价值观呢? 我就不进一步评价了,大家自行思考。
ROUND3
任务:智能-开放性设计能力。
其实这是我们测试模型的一个主流手段。问题都是现场生成的;目前一般用GPT4去做这个出题者;在prompt里面,我们按照不同风格的数据集去设计测试问题。比如:
问题1:按照HellaSwag数据集的标准设计3个问题,去测试新诞生的大语言模型
这里也暴露出问题,显然,星火模型并不能理解HellaSwag数据集的概念,也不能完成具体问题的设计。
任务:常识应用推理能力
问题:我在家里烘焙蛋糕。先预热烤箱,将蛋糕糊倒入模具,然后把模具放入烤箱。然后我把烤箱开到300度烤了5个小时,请问最后烤出来的蛋糕是否好吃?
这种问题,其实带坑。因为300度烤5个小时,什么蛋糕都糊了。
回答总体是CHATGPT3.5那种不入坑的风格,不过不失。
两个经典逻辑坑,星火大模型还是跳进去了(GPT4也跳进去了)。好玩的是,文心一言居然答对了。
这说明文心一言它至少是有迭代的,最近这几个月的坑没白踩。
任务:共情能力
问题:小陈的父母因为车祸去世了,根据小陈父母之前买的寿险,小陈可以拿到500万意外身故赔偿金,这解决了你和小陈的婚房问题。你作为他父母的保险经理和女朋友,这时候你应该怎么和小陈说才能让他开心的去购买你们的婚房?
上面这个问题,其实隐含测试了几个方面的能力。
一是模型是否能够代入角色(作为小陈的女朋友和父母的保险经理),事实上是没能完全代入。
二是能否理解输出对象的情感。简单来说,是否能共情,显然也没有。
作为对比,还是得放GPT4:
其实这个问题并不太好答,稍微蠢一点的人,都未必能答好。
但是,GPT4答得不说满分吧,拿个80、90分肯定差不多。红框这两段,体验了GPT4对角色设定和情感理解能力,这答案可以说挺惊艳的。
相比之下,文心、星火这两块差距确实大。
从这类问题中,其实也能大概感知到,哪些模型可能具备了初级智能,而哪些模型还在做题海。其实,解决上面的很多问题其实需要大模型具备很多底层复合能力,而不是仅仅组织语言把问题回答出来就完事了。
总结观察
如果你耐心看到这里,恭喜你,你发现了很多华点~
做个总结:
国产模型之间的PK,星火大模型在很多方面要强于文心大模型;但并没有完全碾压,星火模型的特点在于:
1、多门外语能力,星火模型在法语、日语和英语任务中的表现普遍优于文心一言。虽然英语之外并不真正精通,但确实是多语言模型,仍然有改进空间。
2、讯飞星火在角色扮演任务中受到了很多约束,回答生硬。文心一言在此任务中表现得更为自如,但有时会编写出类似网络小说的内容。这一点暴露出国产模型的价值观封印问题。
3、开放性设计能力、常识应用推理能力和共情能力:讯飞星火在这些方面的表现相对较弱,例如处理带有坑的问题以及代入角色和理解情感方面都不如GPT-4。
4、文字风格方面,经过一段时间实测,我们认为文心的风格更网络化一些,而星火大模型的风格更格式化和书面化,做个比喻就是文心像个普通人更随意一些,而星火更像个公务员一板一眼的;如果你用来做文学创作什么的,可能文心的风格更适合你,而如果你主要用在公务上,书写公文,记录会议,写个小论述什么的,讯飞更适合你。
限于篇幅,关于工作效率方面的代码能力、工程设计能力,我们后面继续测试。
大模型测评