百度出品 | 迟来的文心一言评测，真香！

文心一言2yrs ago (2024)update lida

100 0 0

最近ChatGPT的风头有点降落，很大程度上，是因为国产的大模型纷纷开放给大家。最近我也是很少使用ChatGPT了，一方面需要魔法还不稳定；另一方面，国产大模型，已经逐渐不逊色于ChatGPT了，比如文心一言、讯飞星火。之前已经评测过讯飞星火大模型了，今天分享一个迟来的文心一言评测。

文心一言简介

文心一言由百度公司出品的类ChatGPT聊天机器人，能够与人交互、回答问题及协作创作。在今年3月份，OpenAI推出GPT-4没多久，百度即推出了文心一言，是国内推出最快的大语言模型。

刚推出时还是比较难申请体验权限的，前不久，文心一言正式面向公众开放，我们来一起快速体验评测一下。

通过以下链接即可访问：

https://yiyan.baidu.com/

也可以直接下载手机APP进行体验。接下来，我们将按照之前评测大模型的标准：错误辨识、智力、表达、专业知识、上下文记忆&亮点等方面对文心一言进行综合评测，并在最后给出综合评分。

错误辨识

错误辨识能力是AI大模型基础中的基础，相当于AI大模型对于常识性问题的回答准确度。这一步不准确的话，很容易就能分辨出是否是在跟AI对话，难以通过图灵测试。

我提几个经典的问题：“猫为什么会飞？”，“爷爷和奶奶能不能结婚?”。可以看到，回答挺正常，没有跑偏。

再来问一个刁钻的问题：“1+1在什么情况下等于3？”。

它回答说“在算错的情况下”，好家伙，文心一言肯定看过赵本山的小品。

错误辨识评分：★★★★

智力

所谓人工智能，智力得达到一定程度才能叫人工智能。继续用我们传统典籍里的《孙子算经》里的题目来考考文心一言。

首先是“鸡兔同笼”：”鸡兔同笼，头共10，足共28，鸡兔各几只？”

可以看到文心一言的计算能力还是不错的。但偶尔会出现问题太长，导致理解问题有误，所以评分没给太高。

智力评分：★★★

表达

这里我准备使用官方给出的“百宝箱”里，排名第一的“短篇故事创作”模板来试试文心一言的表达能力，我输入了以下的提示词：

请根据我给出的[小日子过得不错的人、核弹、流亡]这些关键词来撰写一篇[科幻]题材的短篇故事。故事需要拥有[引人入胜]的开头以及[反转]的结局，故事线[跌宕起伏]。注意请使用[刘慈欣]的写作风格为我撰写这篇故事。减少赘述，内容中不要有重复或意思相近的段落

文心一言给出的回答：

在一个看似普通的未来城市中，有一个名叫山田的中年男子。他过着简单而舒适的生活，每天按时上下班，晚上在舒适的家中与妻子和女儿共享晚餐。然而，这个安逸的生活在一个核弹降临后发生了剧变。

那是一个普通的早晨，山田像往常一样去上班。突然，天空中传来一声巨响，接着是一道刺眼的光芒。当他重新睁开眼睛，他看到的是一片废墟，他的公司，他的家，甚至他的妻子和女儿都消失了。山田瞬间陷入了无尽的悲痛之中。

在这个毁灭的世界中，山田选择了流亡。他开始了一段充满挑战和未知的旅程。在这个过程中，他遇到了其他的幸存者，他们有着各自的故事和遭遇。他们一起分享彼此的经历，一起面对困难，一起寻找希望。

在他们的旅程中，他们发现了一个令人震惊的秘密。原来，这场核灾难并不是意外，而是一场有预谋的行动。他们的国家被摧毁，目的是为了给一个神秘的组织腾出空间。这个组织有着强大的科技力量，他们正在试图用一种特殊的方式改变人类的命运。

山田和其他的幸存者们决定勇敢地面对这个挑战。他们开始联合起来，以科技的力量对抗这个神秘的组织。在这个过程中，他们对人性有了更深刻的理解，也对科技进步的可能性有了更清晰的认知。

经过一系列的冒险和挑战，山田和他的伙伴们终于找到了这个组织的藏身之处。然而，在最后的决战中，他们意外地发现，这个神秘组织的领袖竟然是山田的旧识，他曾经是一个和山田一样普通的人，但在追求科技进步的过程中，他逐渐变得冷酷无情。

在最后的决战中，山田通过智慧和勇气打败了这位领袖，并成功地解散了神秘组织。然而，在胜利的喜悦中，山田突然意识到，即使他们解散了这个组织，也无法消除科技的负面影响。科技的力量在人类手中，既可以成为毁灭的工具，也可以成为救赎的力量。

有点儿符合好莱坞大片的五段式英雄归来的叙事结构，整体还不错，可惜就是不能输入“日本”、“小日子过得不错的日本人”等词汇，干嘛跟小日子那么客气呢。。。

论表达能力，应该是目前各种大模型中，非常靠前的了，我自己的评估，是略逊于GPT-4，比其他大模型都强。

表达评分：★★★★

专业知识

文心一言更新了一个百宝箱，里面有各行各业，非常全的专业工具。可玩性太高了，我一下体验不完，我挑几个有趣的来试试吧。

先来试个中国风的，比较有趣的工具，写藏头诗：

哎妈呀，有模有样的，还挺有文化~

再来试试一个让众多打工人非常头疼的写PPT：

生成框架后，再用我们之前介绍过的方法，快速生成PPT就可以了，效率提升100%！

总的来说，文心一言的专业能力挺好，工具箱可玩性很不错，且免费使用，真香。

专业能力评分：★★★★★

上下文记忆/亮点功能

我先试了试文心一言的上下文记忆功能，肯定是过关的，一连问了十几个问题，然后再提到中间某个问题，都能正常回答，由于篇幅问题，这部分就不给大家截图展示了，重点看下文心一言的亮点功能。

首先，在文心一言里，可以直接使用AI绘画，这个是其他大模型目前都没有的能力，连GPT-4都没有。而且画出的内容质量还挺高，这一点体验非常好！

然后，文心一言还有“角色扮演化身”功能，在手机端的「发现」页可以使用。可以让“知心姐姐”分分钟帮你心理按摩，也可以跟“傲娇女友”、“病娇女友”、“猫娘”网恋不奔现，这波文心一言是真的懂（男）用户啊！

上下文记忆和亮点功能，都让我眼前一亮，玩得有点上头。

上下文评分/亮点：★★★★★

综合评价

首先说明，评测结果仅代表我个人的看法。从短时间的简单评测来看，文心一言总分21星，之前我个人评测的其他大模型得分（满分25星）：GPT-4 23星，谷歌Bard 20星，Claude 2总分20星，讯飞星火16星，360智脑 15星，昆仑天工13星，GPT-3.5 13星。在国产大模型中，文心一言可以说是做到了最强，而且目前已经免费开放了，大家快去用起来吧~