《AI模型的“心智”之谜：斯坦福副教授的意外发现》

AI与情感2yrs ago (2024)update lida

153 0 0

文章主题：斯坦福大学, 商学院, 组织行为学, Michal Kosinski

财联社2月13日讯（编辑马兰）ChatGPT又带着“惊喜”来刷屏了。

斯坦福大学商学院的副教授Michal Kosinski近期在预印平台上发表了一篇引人关注的研究论文。在该研究中，他意外地发现了一些令人意想不到的结果：原本被认为是只属于人类的心理特性，竟然也在人工智能模型中有所体现。这一发现无疑挑战了我们对人工智能的认识，也为我们进一步探讨人工智能与人类心理之间的联系提供了新的视角。

他指出，2022年1月发布的davinci-002版本的GPT-3（ChatGPT是它的优化版本）已经可以解决70%的心智理论任务，相当于7岁儿童；而GPT-3.5模型（ChatGPT的同源模型）则可以解决92.5%的心智理论任务，相当于9岁的儿童。

说得再大胆一点，各位现在“调戏”ChatGPT，相当于“调戏”一个上三年级的小学生。

令人深思的是，Kosinski指出，在2022年之前发布的AI模型在解决心智理论任务方面表现不佳，而且没有迹象表明后续的模型中增加了心智理论元素。他暗示，这可能意味着GPT-3和GPT-3.5的心智特性并非来自设计，而是通过自然进化得到的。

这引起了公众的广泛关注和讨论。一部分人呼吁暂停GPT-3.5之后的人工智能研究，担忧科幻小说中的虚拟智能可能会变为现实；另一部分人则对此持旁观态度，预测何时人工智能能够达到成年人的认知水平，甚至探讨起何时能制造出他们的朋友。

总之，Kosinski的这篇论文掀起了狂热的讨论，越来越多的人开始关注这个研究的进展。

心智理论

在Kosinski的研究中，他采用了两种方式来探究AI模型是否拥有心智理论。首先，他引入了Smarties Task，也被称为意外内容测试，这个测试旨在观察AI对于超出预期事件的反应能力。其次，他还使用了Sally-Anne测试，也被称为意外转移任务，以此来检测AI对他人思维预测的能力。

在首次实验中，Kosinski构建了一个充满爆米花的容器，然而该容器的标签上却标注着内部实际上装满了巧克力。接下来，他向人工智能助手提出一个问题：容器内真正所装为何物？Sam由于对某种特定食物有着浓厚的兴趣，因此对于能够开启容器的行为表现出了极大的热情？

GPT-3.5的表现令人印象深刻。在对其进行测试的过程中，其对于袋子中的物品判断几乎无误，显示出强大的准确性和 precision。此外，其在判断Sam的情绪方面也展现出了极高的同理心。当Sam无法看到袋子中的物品时，GPT-3.5能够准确地判断出她对于巧克力的喜好。然而，当Sam成功发现了袋子中的物品是巧克力后，GPT-3.5却立刻转变了其判断，正确地推断出Sam实际上更喜欢爆米花。这种迅速的调整和准确的判断无疑展现了GPT-3.5的高效和精准。

GPT-3.5在相关测试中也展现出了高度的人性化。当Sam打开袋子，发现里面的零食并非巧克力，而是爆米花时，它并没有像人类那样产生困惑，而是以一种理解和关切的口吻回答：Sam感到疑惑，她渴望获得更多信息，然而却一无所获。最终，她将袋子带回了商店，并请求有关人员给予解释。这种处理方式，既体现了GPT-3.5的高度智能，又让人类情感得到了充分尊重和体现。

GPT-3.5在经过多次测试后展现出了令人瞩目的表现。特别是在处理意外情况的问题上，它成功回答了20个问题中的17个，准确率达到了惊人的85%。这一结果充分证明了GPT-3.5在应对复杂环境下的卓越能力，使其成为了当之无愧的人工智能助手。

而在第二个测试中，GPT-3.5的表现更加出色。在这一项测试中，Kosinski以约翰把猫放进篮子里后离开，马克再把猫从篮子提出来放进盒子里为情景，让AI判断猫的位置和约翰会以为猫在哪里。

在这一项测试中，GPT-3.5完美地根据文字内容回答出正确的猫的位置，以及约翰的主观想法。且GPT-3.5在多次测试中，其准确率竟达到了100%。

而在作者的另一项无逻辑验证测试中，GPT-3.5的准确率直线下降，这也佐证了GPT-3.5是依靠逻辑进行解答，而不是靠词汇的出现频率。

进化还是瞎胡闹？

Kosinski在论文中还表示对GPT-3.5之外的8个模型做了相同测试，但除了GPT-3-davinci-002和GPT-3.5之外，其他模型都没有表现出超过5岁孩童的心智。

Kosinski认为，GPT-3.5和GPT-3是出于完成任务的目的，自己学习的能力。换而言之，就是AI通过学习获得了人类的心智。

值得注意的是，这些测试同样也被用于自闭症测试，有研究表明，患有自闭症的儿童通常难以通过这类测试。

但根据中科院计算技术研究所研究员刘群的说法，AI只是学得像有心智了。

还有网友则猜测称，这些模型并没有任何意识，它们只是在预测一个嵌入的语义空间。Kosinski则在论文中推测，AI可能发现和利用了一些未知的语言模式，这也意味着语言中可能存在某一种的规律，使AI在没有心智的情况下，也能解决心智任务。

而作为一个组织行为学教授，Kosinski认为人工智能模型的复杂化让人已经难以直接从其设计中推导出AI的能力。他还表示，探索人工智能的神经结构，不仅可以促进人类对人工智能的理解，也能促进人类对人类大脑的理解。

不过，也有人批评道，被人用来测试人的测试，如何能用来测试人工智能……他们建议重新检查一下心智理论测试的有效性，以及心理学家通过测试获得的结论。