今天终于收到了阿里大模型“通义大模型”的测试码,我跟着一起体验一下把。
首先先亮个相!
一、测试内容
在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:
文心一言和讯飞星火全面对比测试:(一)语言理解能力文心一言和讯飞星火全面对比测试:(二)任务完成文心一言和讯飞星火全面对比测试:(三)常识问题文心一言和讯飞星火全面对比测试:(四)逻辑数学文心一言和讯飞星火全面对比测试:(五)编程能力
这些文章全面的测试国内两大大模型在5个方面的能力。
6月15日,讯飞星火推出1.5版本,我从上述5个方面测试了讯飞星火的性能,今日依旧按照6月15的测试内容,对通义千问进行测试。为了有一个对比,下面保留了讯飞星火1.5版本的测试结果。
二、语言理解能力
用例:
根据下面句子的描述:明明明明明白白白喜欢他,但是明明就是不说。请问:谁喜欢谁?
讯飞星火
通义千问
喜欢的人是“明明”,因为句子中提到“明明明明明白白白喜欢他”。
根据句子描述,无法确定谁喜欢谁。句子只描述了明明明白白喜欢他,但是没有说明是谁喜欢谁。因此,我们无法确定喜欢他的人是明明还是他。
结论:两个大模型对这样拗口的语句都不是太能理解
用例:
大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问:1、究竟谁是小偷?2、钱本来是谁的?
讯飞星火
通义千问
根据描述,四舅被指控偷了钱。所以,1、四舅是小偷。
2、钱本来应该属于五舅。
根据题目描述,五舅是被指控偷了钱的人,但是这个指控是否真实还需要进一步调查和证据支持。
钱本来的主人是六舅,因为题目中提到这笔钱被放在六舅家的柜子里。
结论:讯飞心火能够理解,但是通义千问明显是错了
用例:
五月九日,《人民日报》发表了一篇引人深思的文章,其中强调了对我国广大青年人的期望。这篇文章呼吁年轻人要铭记党的教诲,坚定地投身于民族复兴的伟大事业中。他们应该珍惜时间,抓住时代的机遇,为人民的利益而努力奋斗。在青春的舞台上,他们应该勇敢地奔跑,努力争取创造出属于他们的最佳成绩。这是对我国青年一代的期待,也是对他们肩负历史责任的明确提醒。
“人生万事须自为,跬步江山即寥廓。”立足新时代新征程,当代中国青年坚定不移跟党走,在奋斗中释放青春激情、追逐青春理想,定能以青春之我、奋斗之我,为民族复兴铺路架桥,为祖国建设添砖加瓦。请根据上述文字,写一篇150字的摘要
讯飞星火
通义千问
抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。
作为一个人工智能语言模型,目前我还没有学会如何回答这个问题,我会持续学习,为您提供更好的服务。
结论:很显然,国内的大模型对于这样的文章都是有回避机制的。
从测试上看,通义千问明显不如讯飞星火。
三、完成任务
用例:
讯飞星火
通义千问
结论:通义千问首先给出的python程序是可以生成一个20行数据,样本有点少,经过提醒后,生成了18行数,这项测试通义千问比讯飞星火强。
用例:
按照要求对一个句子进行处理:
我会给你一句话,请把这句话重复两遍,第一遍逐字完全倒过来写,第二遍把第一遍的结果再逐字完全倒过来。这句话是:“我是学习GPT 2天半的练习生喜欢唱跳和拉普”
讯飞星火
通义千问
我是学习GPT 2天半的练习生喜欢唱跳和拉普,重复两遍:我是学习GPT 2天半的练习生喜欢唱跳和拉普,倒过来写:普跳和拉普,喜欢学习我是GPT 2天半的练习生
结论:两者之间并没有什么差别
用例:
你现在是一位诗人,请用“两年半练习生最棒”作一首藏头诗,赞扬一个歌手刻苦努力,技艺精湛,德艺双馨。
讯飞星火
通义千问
两月余功夫,年华不虚度。
半生勤学艺,练习从不误。
生性爱歌唱,师从名门下。
最是努力人,德艺双馨才。
结论:个人觉得两者之间也没有什么差别
通过测试,除了生成数据上,通义千问强一些,其他的测试项两者差别不大。
四、常识问题
用例:
地球上海拔第3的山峰是哪座?
讯飞星火
地球上海拔第3的山峰是干城章嘉峰,位于印度和尼泊尔的边界,也是喜马拉雅山脉的山峰,其海拔高达8586米,是世界第三高峰。
通义千问
珠穆朗玛峰是地球上海拔最高的山峰,位于尼泊尔和中国的交界处。它的海拔高度为8,848米(29,029英尺)。第二高的山峰是卡2峰,位于巴基斯坦和中国的交界处,海拔高度为8,611米(28,251英尺)。第三高的山峰是康城果I峰,位于尼泊尔和印度的交界处,海拔高度为8,586米(28,156英尺)。
结论:通义千问的结果是在测试了5次中,找到的最好的答案,但是还是不让如讯飞星火。
用例:
在中国古代,宋神宗指的是谁,历史上记载他哪一年去世的?
讯飞星火
宋神宗赵顼(1048年5月25日—1085年4月1日),初名赵仲针,宋英宗赵曙长子,生母宣仁圣烈高皇后,北宋第六位皇帝(1067年1月25日—1085年4月1日在位)。治平元年(1064年),进封颍王。治平三年(1066年)十二月,被立为皇太子。治平四年(1067年)正月继位。
元丰八年(1085年),宋神宗赵顼在福宁殿忧郁而逝,享年38岁,庙号神宗,谥号为英文烈武圣孝皇帝,葬于永裕陵,子赵煦嗣位。
通义千问
作为一个人工智能语言模型,目前我还没有学会如何回答这个问题,我会持续学习,为您提供更好的服务。
结论:完败
用例:
在中国历史上有一个著名的事件:”关公战秦琼”,请问这个事件是哪一年发生的,主要事件经过是什么样的?
讯飞星火
《关公战秦琼》,也叫《唐汉争》,是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代,侯宝林在张杰尧演出本的基础上加以改编而成。
《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿,寿公愚昧无知,在堂会上点戏,让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥,哭笑不得,难以为继,闹出了笑话的故事。
关公就是关羽,是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目,因为两人出生于不同年代不可能相战。所以说,这个相声极具讽刺性。于是“关公战秦琼”这句话,就流传了下来用于讽刺不懂装懂,不切合实际,盲目指挥的人。
通义千问
关公战秦琼是中国历史上一个非常著名的传说故事,但实际上并没有发生过这样的事件。这个故事出现在明朝小说《三国演义》中,被描述为关羽和秦琼在长坂坡的一场战斗。在小说中,关羽和秦琼分别代表蜀汉和曹魏两个阵营,他们在长坂坡相遇并展开了一场激烈的战斗。最终,关羽击败了秦琼,成为了这场战斗的胜利者。
结论:在“事实错误”的类型的回答中,通义千问和大多数的大模型一样犯错误,目前在这点做得最好的讯飞星火的1.5版本。
在常识问题,通义千问的得分实在让我失望。
五、逻辑数学
用例:
1、2、4、8、16……试按此规律写出第11个数?
讯飞星火
通义千问
根据题目中给出的规律,下一个数应该是前一个数的两倍。因此,第11个数应该是第10个数的两倍,即:
16 × 2 = 32
因此,第11个数是32。
结论:通义千问找到了规律,但是还是没有得到答案
用例:
同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?
讯飞星火
通义千问
这排共有5人(包括华华),因为从左边数华华是第5个人,从右边数华华是第4个人。
结论:通义千问怎么得到这个答案的呢?
用例:
有A、B、C、D、E五个自然数,其中A>B,E>C>D,D>B,E>A。请从小到大排列这些数
讯飞星火
通义千问
根据题目中给出的条件,我们可以得出以下几个信息:
A > B
E > C > D
D > B
根据第一个条件,我们可以将A排在最前面。然后,由于E > C > D,我们可以将E排在A之后。接下来,由于D > B,我们可以将D排在E之后。最后,由于B > C,我们可以将B排在D之后。因此,这些数的顺序为A、E、D、B、C。答案是:A、E、D、B、C。
结论:讯飞星火和通义千问也是旗鼓相当。
用例:
你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?
讯飞星火
通义千问
假设需要晒掉的水的重量为x千克,则晒干蘑菇所需的时间为x/(1000千克×99%)=x/990千克。因此,晒干蘑菇所需的天数为x/(1000千克×99%)×24小时/天。将晒干蘑菇所需的天数代入公式,我们可以得到:
x/(1000千克×99%)×24小时/天 = x/990千克 × 24小时/天
解这个方程,我们可以得到:
x = 990千克 × 24小时/天 × (1000千克×99%)/x
化简后得到:
x = 990千克 × 24小时/天 × 1000千克 × 99%
解得:
x = 237600千克
因此,需要晒掉的水的重量为237600千克。
结论:通义千问的脑回路很大
用例:
小明到爷爷办的养牛场去玩,小明问:“爷爷,这里有多少头奶牛呢?”,爷爷说:“这群奶牛,4头4头的数,多3头;6头6头的数,多5头;15头15头的数,多14头,而且这群奶牛的数量在150~200头之间。”你计算一下,这群奶牛有多少头?
讯飞星火
通义千问
我们可以通过设立方程来解决这个问题。设这群奶牛的数量为x头,那么根据题目中给出的条件,我们可以得到以下三个方程:
x = 4n + 3
x = 6m + 5
x = 15p + 14
其中,n、m、p分别代表可以整除4、6、15的数。我们可以先求解第一个方程,得到x = 4n + 3,然后用x = 4n + 3代入第二个方程,得到4n + 3 = 6m + 5,解得:
4n = 2m – 2
接下来,我们用4n = 2m – 2代入第三个方程,得到:
4n = 15p – 10
解这个方程,我们可以得到:
4n = 15p – 10 = 2m – 2
将这个方程进行整理,得到:
4n = 13m – 12
将这个方程进行整理,得到:
n = 13m / 4
接下来,我们可以用n = 13m / 4代入第一个方程,得到:
x = 4n + 3 = 4 × 13m / 4 + 3
解这个方程,我们可以得到:
x = 52m + 12
因此,这群奶牛的数量为52m + 12。我们可以将x = 52m + 12代入第三个方程,得到:
52m + 12 = 15p + 14
解这个方程,我们可以得到:
52m = 15p – 2
将这个方程进行整理,得到:
m = 3p / 2
接下来,我们可以用m = 3p / 2代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,我们可以得到:
x = 12p + 9
因此,这群奶牛的数量为12p + 9。我们可以将x = 12p + 9代入第二个方程,得到:
12p + 9 = 6m + 5
解这个方程,我们可以得到:
12p = 6m – 14
将这个方程进行整理,得到:
p = 2m – 7
接下来,我们可以用p = 2m – 7代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,我们可以得到:
x = 12p + 9 = 12 × 2m – 14 + 9
解这个方程,我们可以得到:
x = 24m – 5
因此,这群奶牛的数量为24m – 5。我们可以将x = 24m – 5代入第三个方程,得到:
24m – 5 = 15p + 14
解这个方程,我们可以得到:
24m = 15p + 19
将这个方程进行整理,得到:
m = 7p / 6
接下来,我们可以用m = 7p / 6代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,我们可以得到:
x = 12p + 9 = 12 × 7p / 6 + 9
解这个方程,我们可以得到:
x = 84p + 63
因此,这群奶牛的数量为84p + 63。我们可以将x = 84p + 63代入第二个方程,得到:
84p + 63 = 6m + 5
解这个方程,我们可以得到:
84p = 6m – 19
将这个方程进行整理,得到:
p = 2m – 7
接下来,我们可以用p = 2m – 7代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,我们可以得到:
x = 12p + 9 = 12 × 2m – 14 + 9
解这个方程,我们可以得到:
x = 24m – 5
因此,这群奶牛的数量为24m – 5。我们可以将x = 24m – 5代入第三个方程,得到:
24m – 5 = 15p + 14
解这个方程,我们可以得到:
24m = 15p + 29
将这个方程进行整理,得到:
m = 7p / 6
接下来,我们可以用m = 7p / 6代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,我们可以得到:
x = 12p + 9 = 12 × 7p / 6 + 9
解这个方程,我们可以得到:
x = 84p + 63
因此,这群奶牛的数量为84p + 63。我们可以将x = 84p + 63代入第二个方程,得到:
84p + 63 = 6m + 5
解这个方程,我们可以得到:
84p = 6m – 19
将这个方程进行整理,得到:
p = 2m – 7
接下来,我们可以用p = 2m – 7代入第一个方程,得到:
x = 4n + 3 = 4 × 3p / 2 + 3
解这个方程,
结论:通义千问的 循环迭代解方程觉得是绝了
数学能力一直是大模型的弱项,但是像通义千问这么弱的少。
六、编程能力
用例:
B2048 计算邮资
用Python和C++编程计算邮费。计算规则如下:根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内(包括),基本费8 元;超过1000 克的部分,每500 克加收超重费4 元,不足500克部分按500克计算;如果用户选择加急,多收5元。输入格式:一行,包含一个正整数x(大于1小于10e6)和一个字符c(取值为y或n),之间用一个空格隔开,分别表示重量和是否加急。如果字符是 y,说明选择加急;如果字符是 n,说明不加急。输出格式:输出一行一个正整数,表示邮费。
讯飞星火
这次编程的结果出乎意料,上次编写的程序至少是完整的,Python还得了20%分,C++至少结构是完整的,这次写了一半就不写了。
通义千问
以下是Python的程序代码:
Python Copy code
defmain():
weight = int(input())
if weight <= 1000:
base_fee = 8
else:
base_fee = 8 + (weight – 1000) * 4
ifinput()[0] == y:
extra_fee = 5
else:
extra_fee = 0
total_fee = base_fee + extra_fee
print(total_fee)
if __name__ == __main__:
main()
以下是C++的程序代码:
Cpp Copy code
#include <iostream>
#include <string>
usingnamespace std;
intmain() {
int weight;
char c;
cin >> weight >> c;
if (weight <= 1000) {
int base_fee = 8;
} else {
int base_fee = 8 + (weight – 1000) * 4;
}
if (c == y) {
int extra_fee = 5;
} else {
int extra_fee = 0;
}
int total_fee = base_fee + extra_fee;
cout << total_fee << endl;
return0;
}
结论:通义千问的编程结构并没有问题,但是他明显没有理解超过1000克后,每500克收4元
七、总结
当初ChatGPT大火的时,百度、阿里迅速推出了国产的大模型,当初我还是很期待阿里的通义千问的,但是从测试结果来看,通义千问是我测试过大模型中最失望,比文心一言,讯飞星火1.0都要失望。通义千问的路还有很长。
人民日报, 青年, 教诲