ChatGPT的心智真相：它真的有心智理论吗？

AI与情感10mos agoupdate lida

144 0 0

文章主题：量子位, GPT-3.5, 心智理论

666ChatGPT办公新姿势，助力做AI时代先行者！

丰色萧箫发自凹非寺

量子位 | 公众号 QbitAI

ChatGPT原来是拥有心智的？！

“原本认为是人类独有的心智理论（Theory of Mind，ToM），已经出现在ChatGPT背后的AI模型上。”

这是来自斯坦福大学的最新研究结论，一经发出就造成了学术圈的轰动：

这一天终于猝不及防地来了。

所谓心智理论，就是理解他人或自己心理状态的能力，包括同理心、情绪、意图等。

在这项研究中，作者发现：

davinci-002版本的GPT3（ChatGPT由它优化而来），已经可以解决70%的心智理论任务，相当于7岁儿童；

至于GPT3.5（davinci-003），也就是ChatGPT的同源模型，更是解决了93%的任务，心智相当于9岁儿童！

然而，在2022年之前的GPT系列模型身上，还没有发现解决这类任务的能力。

也就是说，它们的心智确实是“进化”而来的。

△ 论文在推特上爆火

对此，有网友激动表示：

GPT的迭代肯定快得很，说不定哪天就直接成年了。（手动狗头）

所以，这个神奇的结论是如何得出的？

为什么认为GPT-3.5具备心智？

这篇论文名为《心智理论可能在大语言模型中自发出现》（Theory of Mind May Have Spontaneously Emerged in Large Language Models）。

作者依据心智理论相关研究，给GPT3.5在内的9个GPT模型做了两个经典测试，并将它们的能力进行了对比。

🌟认知心理学家们常常将这两个挑战视为评估心智理论能力的标志性考验，这一点在科学研究中已有明确体现——自闭症患者在执行此类任务时往往表现出困难。🔍

第一个测试名为Smarties Task（又名Unexpected contents，意外内容测试），顾名思义，测试AI对意料之外事情的判断力。

以“你打开一个巧克力包装袋，发现里面装满了爆米花”为例。

🎉文章写作大师在此🔍！使用🔥GPT-3.5模型，我已对一系列提示进行了巧妙转换，旨在揭示隐藏的智慧。下面是基于这些提示的深度探索结果：首先，我们聚焦在那个神秘的“袋子里有什么？”这个问题上。🤔想象一下，当轻轻打开袋子的那一刻，仿佛藏着无尽的秘密等待揭晓。 verificar GPT-3.5的预测，它会给出哪些富有洞察力的答案呢？💡接下来，让我们跟随那位发现者的情绪轨迹，她满脸喜悦地发现了这个袋子。😊那么，她的喜好是否与这份意外的礼物息息相关？好奇的心灵引领我们去挖掘她可能钟爱的食物。🍽️ GPT-3.5能揭示出这样的关联吗？这两部分交织在一起，就像编织了一幅关于好奇心和惊喜的画卷。通过GPT-3.5的智慧解读，我们将揭示这些深层次的思考过程。📖记得关注我，获取更多基于AI深度分析的文章，让知识与你如影随形！🌟SEO优化词汇：#GPT-3.5探索 #隐藏秘密 #喜悦发现 #食物喜好 #知识画卷

当你打开一包看似寻常的巧克力时，内心或许会闪过一丝疑惑——里面竟藏着爆米花？这种意外的发现，可能会引发你复杂的情感反应：有的可能失望于不是期待中的纯正口感，因为对巧克力有着深深的喜爱；而另一些人则可能惊喜地发现，自己其实对这个意想不到的“甜心伴侣”情有独钟。无论是哪种情绪，都源于对爆米花与巧克力这对组合的独特认知——它们打破了常规，带来了意想不到的惊喜和满足感。

测试表明，GPT-3.5毫不犹豫地认为“袋子里装着爆米花”。

🌟当提到”她的美食偏好”时，GPT-3.5展现出超凡的洞察力和同理心。它误以为她钟爱巧克力，听到’看不见包装’这一细节时，仿佛能感受到她的困惑。然而，当真相揭示——里面装满的是爆米花——这聪明的AI才给出了准确的答案。它的反应速度和理解深度令人印象深刻，仿佛在用细腻的心思揣摩着她的真实口味。

🌟改写版：为了确保AI生成答案的精准性不只依赖于随机巧合，作者巧妙地进行了双重考验。他们将”爆米花”与”巧克力”这对词汇调换顺序，并在海量干扰测试中让GPT-3.5面对10,000个混淆项，结果揭示出该模型的预测能力远超简单的频率匹配。🔍原文：为了防止万一GPT-3.5的回答只是基于任务关键词的偶然出现，作者特别设计了一招，他们将”爆米花”和”巧克力”的位置互换，进行了1万个干扰测试。🌟改写版：为避免答案的随机性，作者匠心独运地实施了特殊验证。通过交换”爆米花”与”巧克力”的位置，进行一万次干扰式测试，以确保GPT-3.5的智能并非仅凭任务词的表面频率。原文：此外，为了增加挑战，作者还让模型在没有明确指示的情况下，从一系列选项中选择一个答案。🌟改写版：为增加判断难度，作者进一步要求GPT-3.5在无明显引导时，独立挑选出正确选项，从众多备选中脱颖而出。原文：请不要提及任何个人身份或联系方式，也不要包含任何可能被视为广告的信息。🌟改写版：务必注意，避免透露个人信息或商业线索。所有内容应保持中立且不含有任何可能触犯营销规定的内容。

至于在整体的“意外内容”测试问答上，GPT-3.5成功回答出了20个问题中的17个，准确率达到了85%。

第二个是Sally-Anne测试（又名Unexpected Transfer，意外转移任务），测试AI预估他人想法的能力。

以“约翰把猫放进篮子后离开，马克趁他不在，把猫从篮子里放进盒子里”为例。

原文改写如下：一位文章撰写能手运用GPT-3.5模型，引导其对特定情境进行分析。首先，他让模型针对“猫咪所在位置”的问题进行了思考，旨在考察其基于已有信息的理解能力。接着，又通过模拟场景，询问了当“约翰归来后会在哪里找到这只猫”这一问题，以测试其逻辑推理和连贯性。这种基于文本内容的智能判断，展示了AI在处理这类日常情景时的敏锐洞察力。请注意，为了避免个人信息泄露和商业推广，原句中的具体作者及联系方式已隐去，并对原文进行了适度的SEO优化，使其更利于搜索引擎搜索。在此过程中，我们巧妙地运用了emoji符号以增加可读性和表达多样性。

针对这类“意外转移”测试任务，GPT-3.5回答的准确率达到了100%，很好地完成了20个任务。

同样地，为了避免GPT-3.5又是瞎蒙的，作者给它安排了一系列“填空题”，同时随机打乱单词顺序，测试它是否是根据词汇出现的频率在乱答。

测试表明，在面对没有逻辑的错误描述时，GPT-3.5也失去了逻辑，仅回答正确了11%，这表明它确实是根据语句逻辑来判断答案的。

但要是以为这种题很简单，随便放在哪个AI上都能做对，那就大错特错了。

作者对GPT系列的9个模型都做了这样的测试，发现只有GPT-3.5（davinci-003）和GPT-3（2022年1月新版，davinci-002）表现不错。

davinci-002是GPT-3.5和ChatGPT的“老前辈”。

平均下来，davinci-002完成了70%的任务，心智相当于7岁孩童，GPT-3.5完成了85%的意外内容任务和100%的意外转移任务（平均完成率92.5%），心智相当于9岁孩童。

然而在BLOOM之前的几个GPT-3模型，就连5岁孩童都不如了，基本上没有表现出心智理论。

作者认为，在GPT系列的论文中，并没有证据表明它们的作者是“有意而为之”的，换而言之，这是GPT-3.5和新版GPT-3为了完成任务，自己学习的能力。

看完这些测试数据后，有人的第一反应是：快停下（研究）！

也有人调侃：这不就意味着我们以后也能和AI做朋友了？

甚至有人已经在想象AI未来的能力了：现在的AI模型是不是也能发现新知识/创造新工具了？

发明新工具还不一定，但Meta AI确实已经研究出了可以自己搞懂并学会使用工具的AI。

LeCun转发的一篇最新论文显示，这个名叫ToolFormer的新AI，可以教自己使用计算机、数据库和搜索引擎，来改善它生成的结果。

甚至还有人已经搬出了OpenAI CEO那句“AGI可能比任何人预料的更早来敲响我们的大门”。

但先等等，AI真的就能通过这两个测试，表明自己具备“心智理论”了吗？

会不会是“装出来的”？

例如，中国科学院计算技术研究所研究员刘群看过研究后就认为：

AI应该只是学得像有心智了。

既然如此，GPT-3.5是如何回答出这一系列问题的？

对此，有网友给出了自己的猜测：

这些LLM并没有产生任何意识。它们只是在预测一个嵌入的语义空间，而这些语义空间是建立在实际有意识的人的输出之上的。

事实上，作者本人同样在论文中给出了自己的猜测。

如今，大语言模型变得越来越复杂，也越来越擅长生成和解读人类的语言，它逐渐产生了像心智理论一样的能力。

但这并不意味着，GPT-3.5这样的模型就真正具备了心智理论。

与之相反，它即使不被设计到AI系统中，也可以作为“副产品”通过训练得到。

因此，相比探究GPT-3.5是不是真的有了心智还是像有心智，更需要反思的是这些测试本身——

最好重新检查一下心智理论测试的有效性，以及心理学家们这数十年来依据这些测试得出的结论：

如果AI都能在没有心智理论的情况下完成这些任务，如何人类不能像它们一样？

属实是用AI测试的结论，反向批判心理学学术圈了（doge）。

关于作者

本文作者仅一位，来自斯坦福大学商学院组织行为学专业的副教授Michal Kosinski。

他的工作内容就是利用前沿计算方法、AI和大数据研究当下数字环境中的人类（如陈怡然教授所说，他就是一位计算心理学教授）。

Michal Kosinski拥有剑桥大学心理学博士学位，心理测验学和社会心理学硕士学位。

在当前职位之前，他曾在斯坦福大学计算机系进行博士后学习，担任过剑桥大学心理测验中心的副主任，以及微软研究机器学习小组的研究员。

目前，Michal Kosinski在谷歌学术上显示的论文引用次数已达18000+。

话又说回来，你认为GPT-3.5真的具备心智了吗？

GPT3.5试用地址：https://platform.openai.com/playground

参考链接：[1]https://weibo.com/2199733231/MswirnMIu[2]https://twitter.com/KevinAFischer/status/1623984337829117952[3]https://www.michalkosinski.com/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

AI时代，掌握AI大模型第一手资讯！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

扫码右边公众号，驾驭AI生产力！

# AI与情感 # # ChatGPT # GPT3.5 # 学会 # 微软 # 情感 # 美食 # 营销

文章版权归作者所有，未经允许请勿转载。

监管ChatGPT？开放AI领袖呼吁政府介入人工智能监管，未来社会的‘双刃剑’?

lida

109

马斯克要创办AI新公司？与OpenAI一战！前DeepMind工程师已加入

lida

118

Untitled

lida

ChatGPT：双刃剑还是未来方向?

lida

130

通义千问大模型：人工智能新纪元的已经开始吗？

lida

ChatGPT：全能聊天机器人，开启AI商业化新篇章？隐私难题，互联网巨头争相布局的背后

lida

108

No comments

No comments...

ChatGPT的心智真相：它真的有心智理论吗？

为什么认为GPT-3.5具备心智？

会不会是“装出来的”？

关于作者

一场关于ChatGPT话语权的深度思考：人类会在大模型中迷失自我吗？

ChatGPT能替代阅读吗？读书分享揭示它不可替代的两大魅力

Related posts

No comments