讯飞星火V1.5:人工智能的新高度,未来的新方向

讯飞星火10mos agoupdate lida
77 0 0

讯飞星火V1.5:人工智能的新高度,未来的新方向

新一轮的大模型升级,谁能引领潮流

5月11日,谷歌的大语言模型PaLM 2闪亮登场,它的全才特性令人瞩目。精通100种语言,数学、软件开发、语言翻译推理和自然语言生成等方面皆有深入造诣。

国内的AI大模型也毫不逊色,百度的 “文心一言”以其擅长的文学创作、商业文案、数理逻辑、中文理解和多模态生成能力,充当着贴心的写作伙伴。而“360智脑”在图像处理领域展现出无可比拟的优势,其深度学习技术可以精准识别并分析图像内容,让用户对图像信息有更直观的理解。

彼时,让我们将焦点放到科大讯飞6月9日发布会上公布的的讯飞星火认知大模型V1.5。它在开放式问答上取得了突破,多轮对话和数学能力再次升级,而在文本生成、语言理解、逻辑推理能力上,它也持续走在前列。同时,它的商业应用在学习、医疗、工业、办公等领域也都有所展现。

讯飞星火V1.5:人工智能的新高度,未来的新方向

那么面对这一轮的大模型升级,谁能引领潮流?这需要你来决定,无论你是代码大神还是办公室新人,都可以在这些AI模型中找到适合自己的那一款。AI大模型的世界,充满了无限可能,让我们一起期待它们的精彩表现吧!

接下来,我们将会进一步探讨讯飞星火认知大模型、文心一言、360智脑,通义千问这四位重量级选手的差异与亮点,以帮助你更好地理解它们的特性,并选择最适合你的AI大模型。

创作能力大PK,谁能成为创作之星

首先,我们要来一场科幻创作大赛!

我们的挑战者,将面临一项艰巨的任务:仿照刘慈欣的科幻巨作《三体》风格,写出一篇800字的小说。这不仅是对他们知识储备的考验,更是对他们创新思维和艺术灵感的挑战。

那么,谁能在这场科幻创作大赛中胜出,让我们一起来揭晓吧!

文心一言的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

图 1图源:《科创板日报》

通义千问的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

图 2图源:《科创板日报》

讯飞星火的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

从结果上看,讯飞星火无论是篇幅还是内容丰富度,都强势领跑,标题的创造力更是锦上添花。

而这背后的文学创作差异,便是一个既考验语料积累又看重逻辑推理与算法的复杂比赛。

文心一言得益于百度这个大厨,拥有海量的中文搜索引擎作为原料,烹饪出了自己的特色。而科大讯飞的讯飞星火,却更像是一名精湛的厨艺高手,利用自己擅长的算法调料,早在2011年就已经在语音和语言信息处理的厨房里炒制出了无数美味。当然,阿里巴巴旗下的通义千问也不容小觑,未来的应用场景宽广,但它仍需进一步丰富自己的原料库,才能在这场文学创作的比赛中更进一步。

推理解析大比拼,谁是真正的逻辑大师

数学,这是一个考验逻辑和推理能力的领域。在这个领域里,我们的大模型们将面临一场严峻的挑战。

讯飞星火、360智脑、文心一言,他们将要解决的是一道来自科创板日报的数学题。这不仅是对他们的数学知识的考验,更是对他们的逻辑推理能力的挑战。下面的图片,将展示他们的解题过程。

文心一言的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

360智脑的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

讯飞星火的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

结果显示,只有讯飞星火给出了准确的答案。

那不如给讯飞星火来一道更难得数学题?

讯飞星火V1.5:人工智能的新高度,未来的新方向

从结果来看,讯飞星火依然展现出了严谨的解题思路。

至于答案是否正确,我们还需要数学大牛们的点评。但这道题目,可是涵盖了微积分和多元函数积分等知识点的大怪兽,难度可不小。这也揭示了一个事实,那就是升级后的讯飞星火V1.5在长链条思维推理和数理逻辑推理能力上,已经有了飞跃式的提升。

无论是逻辑推理题还是数学问题,讯飞星火都能像一个熟练的魔术师,综合应用各种数学方法,严谨推理出答案。

值得一提的是,搜狐科技通过选取2023年上海数学试卷的10道填空题,对市面上主流的5款大模型产品进行了一场公平的较量。

讯飞星火V1.5:人工智能的新高度,未来的新方向

图 3摘自搜狐科技

结果出人意料,讯飞星火以50%的正确率,答对了5题,成为这场比赛的“最佳表现者”。相比之下,百度的文心一言和ChatGPT答对了4题,正确率为40%;而360智脑和阿里的通义千问则像是遇到了难题,一题都未能答对。

逻辑数学题,对于当前各大语言模型来说,就像是一座高山,难以攀登。无论是国际还是国内的大模型,普遍在逻辑推理能力上表现不佳。

然而,讯飞星火却在这场挑战中表现出色,答对了高考数学试卷的一半题目,这充分体现了其强大的逻辑推理和数学能力。在讯飞星火升级后,数学能力已经事实上成为其最强项,这无疑为其在未来的发展中增添了更多可能性。

实用功能大对决,谁是你的贴身小助手

作为打工人,我们的日常就是一场场与时间的赛跑,一份份报告的攻坚战。每当季度结束的时候,那份看似简单,实则复杂的工作总结就像一座大山压在我们的心头。

如果有一个AI大模型能够帮我们轻松搞定这些任务,那我们就能把那些苦逼的加班时间,换成一杯奶茶,一部电影,或者是一场说走就走的旅行。

那么,各大语言模型能否胜任这样的任务呢?下面就通过一个写工作季度总结的任务来看看它们的表现如何。

文心一言回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

通义千问的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

讯飞星火的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

从结果上看,虽然文心一言在开始时稍显迟疑,但在稍作提示后也顺利地完成了任务;通义千问多了些礼貌用语,也基本完成指令要求;讯飞星火整体看下来最为突出,条理清晰,重点突出,堪称打工人福音。

说到这,就不得不提升级后的讯飞星火推出了200多个官方小助手,深度覆盖了职场、生活、出行、写作等用户高频场景。

其中,职场小助手包括了PPT大纲助手,周报小助理,调查问卷助手,活动发言稿助手等,这些小助手针对性地为打工人的各项工作提供了强大的支持。

讯飞星火V1.5:人工智能的新高度,未来的新方向

无论你是需要准备一份PPT大纲,还是需要撰写一份周报,或者是需要制作一份调查问卷,甚至是需要准备一份活动发言稿,讯飞星火的小助手都能为你提供专业、高效的帮助。

讯飞星火V1.5:人工智能的新高度,未来的新方向

在上图的演示中,小编选择了市场分析师小助手。对话一开始小助手就直接了当的叫我提供给它一个行业,它就帮我搞定市场分析报告。小编随便输入了一个旅游业。

随后小助手立即像一个熟练的专家,流畅地列出了该行业的市场分析报告。生成分析报告的篇幅比较长,就不一一截图了。

讯飞星火V1.5与旧版的对比:升级的价值和影响

① 掌握现在,预见未来:讯飞星火的实时知识更新能力

在6月9日的科大讯飞发布会上,总裁吴晓如就深入探讨了大模型面临的一个核心挑战:新知识更新困难,导致有时候提供答案时知识及时性不足,甚至会出现张冠李戴的现象。

然而,这对星火模型V1.5来说不再是问题。

让我们通过一个实时性问题来看一下新,旧版讯飞星火的对比

旧版讯飞星火的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

图 4图源:《科创板日报》

新版讯飞星火V1.5的回答:

讯飞星火V1.5:人工智能的新高度,未来的新方向

显然,新升级的讯飞星火V1.5很专业的回答了”特斯拉汽车销量“的实时性问题,并且还兼顾了同比,环比增长率,考虑非常周到。

而旧版的讯飞星火,直接表示答不出来,让我们到特斯拉官网自己查去。

讯飞星火V1.5:人工智能的新高度,未来的新方向

针对这项能力的突破,总裁吴晓如在发布会上提到:

科大讯飞是通过实时信息库和专业数据库进行各种知识的搜索和提取,然后通过大模型的概括表达能力推送给用户,确保了向用户提供结果的及时性和准确性,使得开放式知识问答能力提升24%,能解决更复杂问题。

② 沟通无阻:讯飞星火在多轮对话中的精彩表现

而另一方面,发布会上刘聪以“我想写一个小兔子去黄山旅游探险的故事。”为例,通过提出情节的要求随时调整故事内容,对科大讯飞星火认知大模型多轮对话的能力进行了展现。

讯飞星火V1.5:人工智能的新高度,未来的新方向

在此,小编以一个生活中常见的案例来验证这一点:

讯飞星火V1.5:人工智能的新高度,未来的新方向

讯飞星火V1.5:人工智能的新高度,未来的新方向

细心的朋友应该也发现了,小编的第二轮和第三轮发送给讯飞星火的问题:

1.听起来不错,我对艺术感兴趣,我应该去哪一个地点?

2.谢谢,那我应该在什么时间去那里才能避开人群?

并没有提及”上海“这个地点,而讯飞星火在随后的回答里,显然是记得第一轮对话中我向它表达的“希望去上海旅行”这一信息。

这种大模型对于上下文的记忆能力对用户后期使用非常重要,

正如总裁吴晓如在发布会上强调的:

人与人间协同完成任务需要多次交互,很少一次交互就能完成一个复杂任务。因此,基于大模型认知能力的多轮对话提升,使我们未来可以完成特定复杂的任务。这种完整复杂的任务,可以通过人机共创来实现,不断激发人与机器多人交互的灵感,共同协作,完成更复杂的标准。

③ 解码未来:大语言模型挑战与前景展望

随着人工智能和大语言模型的不断发展,我们正站在一个新的技术革命的门槛上。这些模型不仅在理解和生成人类语言方面取得了显著的进步,而且正在开启一个全新的认知时代,这将深刻改变我们的生活和工作方式。未来,我们期待看到大语言模型在更多领域中发挥其潜力,包括创新设计、决策支持、教育和娱乐等。同时,我们也期待看到更多的研究和开发工作,以解决大语言模型的挑战,如模型的可解释性、公平性和安全性等。

让我们一起期待这个充满无限可能的未来。

© Copyright notes

Related posts

No comments

No comments...