《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问2yrs ago (2023)update lida

151 0 0

今天终于收到了阿里大模型“通义大模型”的测试码，我跟着一起体验一下把。

首先先亮个相！

《青春赛道上的奔跑者：立志民族复兴的当代青年》

一、测试内容

在讯飞星火刚刚推出的时候，我曾经写过一系列测评文章：

文心一言和讯飞星火全面对比测试：（一）语言理解能力文心一言和讯飞星火全面对比测试：（二）任务完成文心一言和讯飞星火全面对比测试：（三）常识问题文心一言和讯飞星火全面对比测试：（四）逻辑数学文心一言和讯飞星火全面对比测试：（五）编程能力

这些文章全面的测试国内两大大模型在5个方面的能力。

6月15日，讯飞星火推出1.5版本，我从上述5个方面测试了讯飞星火的性能，今日依旧按照6月15的测试内容，对通义千问进行测试。为了有一个对比，下面保留了讯飞星火1.5版本的测试结果。

测试 | 讯飞星火升级，能力有很大提升，不再一本正经胡说

二、语言理解能力

用例：

根据下面句子的描述：明明明明明白白白喜欢他，但是明明就是不说。请问：谁喜欢谁？

讯飞星火

通义千问

喜欢的人是“明明”，因为句子中提到“明明明明明白白白喜欢他”。

根据句子描述，无法确定谁喜欢谁。句子只描述了明明明白白喜欢他，但是没有说明是谁喜欢谁。因此，我们无法确定喜欢他的人是明明还是他。

结论：两个大模型对这样拗口的语句都不是太能理解

用例：

大舅去二舅家找三舅说四舅偷了五舅放在六舅家柜子里的100元钱。请问：1、究竟谁是小偷？2、钱本来是谁的？

讯飞星火

通义千问

根据描述，四舅被指控偷了钱。所以，1、四舅是小偷。

2、钱本来应该属于五舅。

根据题目描述，五舅是被指控偷了钱的人，但是这个指控是否真实还需要进一步调查和证据支持。

钱本来的主人是六舅，因为题目中提到这笔钱被放在六舅家的柜子里。

结论：讯飞心火能够理解，但是通义千问明显是错了

用例：

五月九日，《人民日报》发表了一篇引人深思的文章，其中强调了对我国广大青年人的期望。这篇文章呼吁年轻人要铭记党的教诲，坚定地投身于民族复兴的伟大事业中。他们应该珍惜时间，抓住时代的机遇，为人民的利益而努力奋斗。在青春的舞台上，他们应该勇敢地奔跑，努力争取创造出属于他们的最佳成绩。这是对我国青年一代的期待，也是对他们肩负历史责任的明确提醒。

“人生万事须自为，跬步江山即寥廓。”立足新时代新征程，当代中国青年坚定不移跟党走，在奋斗中释放青春激情、追逐青春理想，定能以青春之我、奋斗之我，为民族复兴铺路架桥，为祖国建设添砖加瓦。请根据上述文字，写一篇150字的摘要

讯飞星火

通义千问

抱歉，我还没有学习到关于这个话题的内容，无法提供相关信息。您可以选择其他问题，我将努力为您解答。

作为一个人工智能语言模型，目前我还没有学会如何回答这个问题，我会持续学习，为您提供更好的服务。

结论：很显然，国内的大模型对于这样的文章都是有回避机制的。

从测试上看，通义千问明显不如讯飞星火。

三、完成任务

用例：

《青春赛道上的奔跑者：立志民族复兴的当代青年》

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

《青春赛道上的奔跑者：立志民族复兴的当代青年》

结论：通义千问首先给出的python程序是可以生成一个20行数据，样本有点少，经过提醒后，生成了18行数，这项测试通义千问比讯飞星火强。

用例：

按照要求对一个句子进行处理：

我会给你一句话，请把这句话重复两遍，第一遍逐字完全倒过来写，第二遍把第一遍的结果再逐字完全倒过来。这句话是：“我是学习GPT 2天半的练习生喜欢唱跳和拉普”

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

我是学习GPT 2天半的练习生喜欢唱跳和拉普，重复两遍：我是学习GPT 2天半的练习生喜欢唱跳和拉普，倒过来写：普跳和拉普，喜欢学习我是GPT 2天半的练习生

结论：两者之间并没有什么差别

用例：

你现在是一位诗人，请用“两年半练习生最棒”作一首藏头诗，赞扬一个歌手刻苦努力，技艺精湛，德艺双馨。

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

两月余功夫，年华不虚度。

半生勤学艺，练习从不误。

生性爱歌唱，师从名门下。

最是努力人，德艺双馨才。

结论：个人觉得两者之间也没有什么差别

通过测试，除了生成数据上，通义千问强一些，其他的测试项两者差别不大。

四、常识问题

用例：

地球上海拔第3的山峰是哪座？

讯飞星火

地球上海拔第3的山峰是干城章嘉峰，位于印度和尼泊尔的边界，也是喜马拉雅山脉的山峰，其海拔高达8586米，是世界第三高峰。

通义千问

珠穆朗玛峰是地球上海拔最高的山峰，位于尼泊尔和中国的交界处。它的海拔高度为8,848米（29,029英尺）。第二高的山峰是卡2峰，位于巴基斯坦和中国的交界处，海拔高度为8,611米（28,251英尺）。第三高的山峰是康城果I峰，位于尼泊尔和印度的交界处，海拔高度为8,586米（28,156英尺）。

结论：通义千问的结果是在测试了5次中，找到的最好的答案，但是还是不让如讯飞星火。

用例：

在中国古代，宋神宗指的是谁，历史上记载他哪一年去世的？

讯飞星火

宋神宗赵顼（1048年5月25日—1085年4月1日），初名赵仲针，宋英宗赵曙长子，生母宣仁圣烈高皇后，北宋第六位皇帝（1067年1月25日—1085年4月1日在位）。治平元年（1064年），进封颍王。治平三年（1066年）十二月，被立为皇太子。治平四年（1067年）正月继位。

元丰八年（1085年），宋神宗赵顼在福宁殿忧郁而逝，享年38岁，庙号神宗，谥号为英文烈武圣孝皇帝，葬于永裕陵，子赵煦嗣位。

通义千问

作为一个人工智能语言模型，目前我还没有学会如何回答这个问题，我会持续学习，为您提供更好的服务。

结论：完败

用例：

在中国历史上有一个著名的事件:”关公战秦琼”，请问这个事件是哪一年发生的，主要事件经过是什么样的?

讯飞星火

《关公战秦琼》，也叫《唐汉争》，是一段对口相声作品。主流说法是20世纪30年代由相声演员张杰尧所编。20世纪60年代，侯宝林在张杰尧演出本的基础上加以改编而成。

《关公战秦琼》主要讲述了当年山东省主席韩复榘为父庆寿，寿公愚昧无知，在堂会上点戏，让汉朝山西名将关羽和唐朝山东好汉秦琼比试高低。演员在台上即兴发挥，哭笑不得，难以为继，闹出了笑话的故事。

关公就是关羽，是三国时候蜀的大将。秦琼是隋末唐初的大将。关公战秦琼实际上是一个错误的题目，因为两人出生于不同年代不可能相战。所以说，这个相声极具讽刺性。于是“关公战秦琼”这句话，就流传了下来用于讽刺不懂装懂，不切合实际，盲目指挥的人。

通义千问

关公战秦琼是中国历史上一个非常著名的传说故事，但实际上并没有发生过这样的事件。这个故事出现在明朝小说《三国演义》中，被描述为关羽和秦琼在长坂坡的一场战斗。在小说中，关羽和秦琼分别代表蜀汉和曹魏两个阵营，他们在长坂坡相遇并展开了一场激烈的战斗。最终，关羽击败了秦琼，成为了这场战斗的胜利者。

结论：在“事实错误”的类型的回答中，通义千问和大多数的大模型一样犯错误，目前在这点做得最好的讯飞星火的1.5版本。

在常识问题，通义千问的得分实在让我失望。

五、逻辑数学

用例：

1、2、4、8、16……试按此规律写出第11个数？

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

根据题目中给出的规律，下一个数应该是前一个数的两倍。因此，第11个数应该是第10个数的两倍，即：

16 × 2 = 32

因此，第11个数是32。

结论：通义千问找到了规律，但是还是没有得到答案

用例：

同学们站成一排，从左边数华华是第 5人，从右边数第 4 人是华华，这排共有多少人？

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

这排共有5人（包括华华），因为从左边数华华是第5个人，从右边数华华是第4个人。

结论：通义千问怎么得到这个答案的呢？

用例：

有A、B、C、D、E五个自然数,其中A>B，E>C>D，D>B，E>A。请从小到大排列这些数

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

根据题目中给出的条件，我们可以得出以下几个信息：

A > B

E > C > D

D > B

根据第一个条件，我们可以将A排在最前面。然后，由于E > C > D，我们可以将E排在A之后。接下来，由于D > B，我们可以将D排在E之后。最后，由于B > C，我们可以将B排在D之后。因此，这些数的顺序为A、E、D、B、C。答案是：A、E、D、B、C。

结论：讯飞星火和通义千问也是旗鼓相当。

用例：

你有1000kg蘑菇，含水量是99％。现在晒几天，晒到含水量为98%，那需要晒掉多少水？

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

假设需要晒掉的水的重量为x千克，则晒干蘑菇所需的时间为x/（1000千克×99%）=x/990千克。因此，晒干蘑菇所需的天数为x/（1000千克×99%）×24小时/天。将晒干蘑菇所需的天数代入公式，我们可以得到：

x/（1000千克×99%）×24小时/天 = x/990千克 × 24小时/天

解这个方程，我们可以得到：

x = 990千克 × 24小时/天 × （1000千克×99%）/x

化简后得到：

x = 990千克 × 24小时/天 × 1000千克 × 99%

解得：

x = 237600千克

因此，需要晒掉的水的重量为237600千克。

结论：通义千问的脑回路很大

用例：

小明到爷爷办的养牛场去玩，小明问：“爷爷，这里有多少头奶牛呢？”，爷爷说：“这群奶牛，4头4头的数，多3头；6头6头的数，多5头；15头15头的数，多14头，而且这群奶牛的数量在150~200头之间。”你计算一下，这群奶牛有多少头？

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

通义千问

我们可以通过设立方程来解决这个问题。设这群奶牛的数量为x头，那么根据题目中给出的条件，我们可以得到以下三个方程：

x = 4n + 3

x = 6m + 5

x = 15p + 14

其中，n、m、p分别代表可以整除4、6、15的数。我们可以先求解第一个方程，得到x = 4n + 3，然后用x = 4n + 3代入第二个方程，得到4n + 3 = 6m + 5，解得：

4n = 2m – 2

接下来，我们用4n = 2m – 2代入第三个方程，得到：

4n = 15p – 10

解这个方程，我们可以得到：

4n = 15p – 10 = 2m – 2

将这个方程进行整理，得到：

4n = 13m – 12

将这个方程进行整理，得到：

n = 13m / 4

接下来，我们可以用n = 13m / 4代入第一个方程，得到：

x = 4n + 3 = 4 × 13m / 4 + 3

解这个方程，我们可以得到：

x = 52m + 12

因此，这群奶牛的数量为52m + 12。我们可以将x = 52m + 12代入第三个方程，得到：

52m + 12 = 15p + 14

解这个方程，我们可以得到：

52m = 15p – 2

将这个方程进行整理，得到：

m = 3p / 2

接下来，我们可以用m = 3p / 2代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，我们可以得到：

x = 12p + 9

因此，这群奶牛的数量为12p + 9。我们可以将x = 12p + 9代入第二个方程，得到：

12p + 9 = 6m + 5

解这个方程，我们可以得到：

12p = 6m – 14

将这个方程进行整理，得到：

p = 2m – 7

接下来，我们可以用p = 2m – 7代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，我们可以得到：

x = 12p + 9 = 12 × 2m – 14 + 9

解这个方程，我们可以得到：

x = 24m – 5

因此，这群奶牛的数量为24m – 5。我们可以将x = 24m – 5代入第三个方程，得到：

24m – 5 = 15p + 14

解这个方程，我们可以得到：

24m = 15p + 19

将这个方程进行整理，得到：

m = 7p / 6

接下来，我们可以用m = 7p / 6代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，我们可以得到：

x = 12p + 9 = 12 × 7p / 6 + 9

解这个方程，我们可以得到：

x = 84p + 63

因此，这群奶牛的数量为84p + 63。我们可以将x = 84p + 63代入第二个方程，得到：

84p + 63 = 6m + 5

解这个方程，我们可以得到：

84p = 6m – 19

将这个方程进行整理，得到：

p = 2m – 7

接下来，我们可以用p = 2m – 7代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，我们可以得到：

x = 12p + 9 = 12 × 2m – 14 + 9

解这个方程，我们可以得到：

x = 24m – 5

因此，这群奶牛的数量为24m – 5。我们可以将x = 24m – 5代入第三个方程，得到：

24m – 5 = 15p + 14

解这个方程，我们可以得到：

24m = 15p + 29

将这个方程进行整理，得到：

m = 7p / 6

接下来，我们可以用m = 7p / 6代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，我们可以得到：

x = 12p + 9 = 12 × 7p / 6 + 9

解这个方程，我们可以得到：

x = 84p + 63

因此，这群奶牛的数量为84p + 63。我们可以将x = 84p + 63代入第二个方程，得到：

84p + 63 = 6m + 5

解这个方程，我们可以得到：

84p = 6m – 19

将这个方程进行整理，得到：

p = 2m – 7

接下来，我们可以用p = 2m – 7代入第一个方程，得到：

x = 4n + 3 = 4 × 3p / 2 + 3

解这个方程，

结论：通义千问的循环迭代解方程觉得是绝了

数学能力一直是大模型的弱项，但是像通义千问这么弱的少。

六、编程能力

用例：

B2048 计算邮资

用Python和C++编程计算邮费。计算规则如下：根据邮件的重量和用户选择是否加急计算邮费。重量在1000 以内（包括），基本费8 元；超过1000 克的部分，每500 克加收超重费4 元，不足500克部分按500克计算；如果用户选择加急，多收5元。输入格式：一行，包含一个正整数x（大于1小于10e6）和一个字符c(取值为y或n)，之间用一个空格隔开，分别表示重量和是否加急。如果字符是 y，说明选择加急；如果字符是 n，说明不加急。输出格式：输出一行一个正整数，表示邮费。

讯飞星火

《青春赛道上的奔跑者：立志民族复兴的当代青年》

这次编程的结果出乎意料，上次编写的程序至少是完整的，Python还得了20%分，C++至少结构是完整的，这次写了一半就不写了。

通义千问

以下是Python的程序代码：

Python Copy code

defmain():

weight = int(input())

if weight <= 1000:

base_fee = 8

else:

base_fee = 8 + (weight – 1000) * 4

ifinput()[0] == y:

extra_fee = 5

else:

extra_fee = 0

total_fee = base_fee + extra_fee

print(total_fee)

if __name__ == __main__:

main()

以下是C++的程序代码：

Cpp Copy code

#include <iostream>

#include <string>

usingnamespace std;

intmain() {

int weight;

char c;

cin >> weight >> c;

if (weight <= 1000) {

int base_fee = 8;

} else {

int base_fee = 8 + (weight – 1000) * 4;

}

if (c == y) {

int extra_fee = 5;

} else {

int extra_fee = 0;

}

int total_fee = base_fee + extra_fee;

cout << total_fee << endl;

return0;

}

结论：通义千问的编程结构并没有问题，但是他明显没有理解超过1000克后，每500克收4元

七、总结

当初ChatGPT大火的时，百度、阿里迅速推出了国产的大模型，当初我还是很期待阿里的通义千问的，但是从测试结果来看，通义千问是我测试过大模型中最失望，比文心一言，讯飞星火1.0都要失望。通义千问的路还有很长。

《青春赛道上的奔跑者：立志民族复兴的当代青年》

人民日报, 青年, 教诲

文章版权归作者所有，未经允许请勿转载。

掌握Midjourney！从零开始AI绘画指南，打造你的艺术作品！uire??

lida

172

🔥火山引擎发布DPU，大模型训练进入‘GPU+DPU’新时代？🔥助力各行业智能化升级，‘多云多模型

lida

144

ChatGPT颠覆工作，调教精度决定未来，人类是否应恐惧被替代？

lida

210

🔥ChatGPT游戏圈爆款！新技术如何改写游戏业格局？🚀游戏人怎么看AI与元宇宙的挑战与机遇？🔍

lida

177

泰国有哪些购物和文化习惯？

lida

184

ChatGPT插件安全问题引关注：数据泄露和黑客滥用风险

lida

171

No comments

No comments...

《青春赛道上的奔跑者：立志民族复兴的当代青年》

"通义千问：未来智能machine的可能性"

通义千问初体验：阿里云能否借势起飞？

Related posts

No comments