文章导读 ?
大家好,我是小郭和佳航今天我要和大家分享一篇非常精彩的研究文章——《当心灵遇见机器:揭开 GPT-4 的认知心理学》。?❤️ 在这篇文章中,我们将一起探索GPT-4这一强大的人工智能工具如何与人类的认知心理学相结合,以及它在理解、学习和解决问题方面的能力。
编辑人:小郭 审稿人:佳航 排版:小郭
内容提炼 ?
1. 认知心理学与人工智能的交汇点 ??
• 认知心理学致力于解析人类如何学习、记忆和回忆信息。
• 大型语言模型(LLMs),尤其是GPT-4,正在成为能够执行接近人类水平任务的强大工具。
2. GPT-4的认知心理学能力评估 ?
• 本研究使用CommonsenseQA、SuperGLUE、MATH和HANS等数据集对GPT-4进行了全面的评估。
• GPT-4在这些认知心理学任务上展现出了比以往模型更高的准确性。
3. GPT-4在特定任务上的表现 ?
• 在CommonsenseQA数据集上,GPT-4达到了83.2%的准确率。
• 在MATH数据集的预代数部分,GPT-4的准确率约为84%,在几何部分为82%。
• 在HANS数据集上,GPT-4实现了100%的准确率,而在SuperGLUE上则达到了91.2%。
4. GPT-4的潜力与应用前景 ?
• GPT-4的发展为心理学家和精神病学家提供了前所未有的资源,有助于他们更深入地了解人类心智。
• 通过在基本的推理和认知测试中对GPT-4进行彻底测试,我们可以确保其在解释复杂人类行为和情感方面的相关性和有效性。
相关文献推荐
关键知识点总结 ?
• 认知心理学:研究人类认知过程的科学,包括感知、注意力、记忆、语言、解决问题和决策制定。
• 大型语言模型(LLMs):一类人工智能框架,因其卓越的语言处理能力而备受关注。
• 自注意力机制:LLMs成功的关键因素,允许模型更有效和准确地建模输入序列中的长期依赖关系。
• GPT-4:最先进的大型语言模型,展现出在多种语言任务上的人类水平表现。
• 准确性:评估大型语言模型性能的基本指标,尤其是在心理学数据集上的应用。
• HANS数据集:专门设计来检测神经网络是否过度依赖启发式规则的测试集。
希望这篇文章导读能够让我的粉丝们对GPT-4在认知心理学领域的应用有一个初步的了解。如果你对这个话题感兴趣,或者想了解更多细节,千万不要错过这篇精彩的研究!?
记得关注我,获取更多科技前沿的解读和分享!我们下次见!?
原文标题:Mind meets machine: Unravelling GPT-4’s cognitive psychology
摘要
认知心理学深入研究了理解、注意力、记忆、语言、解决问题、决策制定和推理等认知过程。大型语言模型(LLMs)作为日益强大的工具,越来越能够执行达到人类水平的任务。最近以生成预训练变换器4(GPT-4)为代表的发展,以及它在对人类来说复杂的考试和问题上展示的成功,增加了我们对LLMs成为完美智能工具的信心。尽管GPT-4的报告已经展示了在一些认知心理学任务上的表现,但通过现有的成熟数据集对GPT-4进行全面评估是必要的。在本研究中,我们专注于评估GPT-4在一系列认知心理学数据集上的表现,如CommonsenseQA、SuperGLUE、MATH和HANS。通过这样做,我们理解GPT-4如何处理和整合认知心理学与上下文信息,提供对其生成回应的能力背后的潜在认知过程的洞察。我们展示了GPT-4在认知心理学任务上相对于先前最先进的模型展现出高水平的准确性。我们的结果加强了对GPT-4认知心理学能力的已有评估和信心。它在使机器弥合人类和机器推理之间的差距方面具有显著的潜力,从而革命化人工智能(AI)领域。
小郭和佳航的专业术语课堂来了↓
• CommonsenseQA:指的是一个用于测试常识推理的数据集,包含多个问题和可能的答案,用于评估模型的常识理解和推理能力。
• MATH:指的是一个包含数学问题的基准测试集,用于评估模型解决数学问题的能力。
• SuperGLUE:指的是一个自然语言理解系统的评测基准,包含一系列挑战性的语言理解任务,用于评估模型在复杂语言推理任务上的性能。
• HANS:指的是一个用于检测自然语言推理系统中启发式错误的数据集,它通过特定的启发式测试来挑战模型的逻辑推理能力。
• accuracy:指的是模型预测正确性的指标,特别是在心理学数据集上,它表示模型正确预测的比例。
• heuristics:指的是问题解决中使用的简单、高效的策略或方法,通常基于经验规则,而不是更复杂的算法。
• cognitive psychology:指的是研究人类认知过程的科学领域,包括感知、注意力、记忆、语言、解决问题和决策制定等心智功能。
• Large Language Models (LLMs) :指的是一类人工智能框架,因其卓越的语言处理能力而备受关注,能够在大量文本数据上进行训练,生成连贯、类似人类的对自然语言查询的回应。
• self-attention mechanism:指的是一种深度学习架构中的技术,允许模型在处理输入序列时,有效地考虑序列内长距离的依赖关系。
• Generative Pre-trained Transformer 4 (GPT-4) :指的是OpenAI开发的一种先进的大型语言模型,它在多种语言任务上展现出接近人类的性能。 **循环神经网络 (Recurrent Neural Network, RNN)**:指的是 一种用于处理序列数据的神经网络架构,它能够利用内部状态(记忆)来处理输入序列之间的时间动态行为。RNN 通过循环连接来保持对先前信息的记忆,使其能够处理和预测时间序列数据中的模式。
好了,让我们开始本文的阅读吧!
1. 引言
认知心理学旨在解码人类如何学习新事物、保留知识,并在需要时回忆这些知识。认知心理学家通过研究人们的思想和行为,以及使用其他实验方法,如脑成像和计算机建模,来寻求理解心智的工作方式。理解人类心智并发展我们的认知技能以在各个领域中表现出色,是认知心理学的终极目标。
随着深度学习和大量数据的可用性,近年来见证了语言模型的快速发展,这些模型在许多语言任务上实现了类似人类的表现。大型语言模型(LLMs)是一种人工智能(AI)框架,近年来因其卓越的语言处理能力而受到显著关注。这些模型在大量文本数据上进行训练,能够生成连贯、类似人类的对自然语言查询的回应。
LLMs的一个关键特性是它们能够对基于文本的提示生成新颖和创造性的回应,这导致它们在聊天机器人、问答系统和语言翻译等领域的使用日益增加。自我注意机制是这一成功的关键因素,因为它允许更有效和准确地建模输入序列内的长期依赖性,从而相比传统的基于循环神经网络(RNN)的模型有更好的表现。
LLMs在广泛的语言任务上展示了令人印象深刻的表现,包括语言建模、机器翻译、情感分析和文本分类。这些能力导致LLMs在包括基于语言的客户服务、虚拟助手和创意写作等多个领域中的使用增加。在衡量人类、其他物种和机器智能的一个关键领域是认知心理学。有一些任务被认为是测试认知心理学的基准,包括文本解释、计算机视觉、规划和推理。为了使认知心理学工作,我们依赖于一个复杂而强大的社会实践:归属和评估思想和行为。
2. 数据集与方法论
在本研究中,我们使用了四个数据集来测试GPT-4的认知心理学能力。这四个数据集分别是CommonsenseQA、MATH、SuperGLUE和HANS。它们的具体描述如下:
2.1. CommonsenseQA
CommonsenseQA是一个为了测试常识推理而组成的数据集。数据集中包含12,247个问题,每个问题都有5个可能的答案。使用亚马逊的Mechanical Turk工人来构建数据集。数据集的目标是利用CONCEPTNET生成难题,评估常识知识。在CommonsenseQA论文中测试的语言模型准确率为55.9%,而作者报告称人类在该数据集上的准确率约为89%。
2.2. MATH
MATH数据集包括了近12,500个来自学术数学竞赛的问题。机器学习模型将数学问题作为输入,并产生一个答案编码序列,例如???????23。经过标准化处理后,它们的答案变得独特,因此可以使用精确匹配而不是像BLEU这样的启发式指标来评估MATH。数学问题的七个不同领域,包括几何学,按照难度从1到5进行分类,并且可以使用Asymptote语言在文本中表达图表。这允许在广泛的严谨性和内容范围内对数学问题解决技能进行细致的评估。问题现在有了全面、详细、逐步的答案。为了提高学习和使模型输出更易于解释,可以训练模型以发展它们自己的逐步解决方案。MATH数据集提出了一个重大挑战,大型语言模型的准确率在3.0%到6.9%之间。模型在最简单难度级别上达到高达15%的准确率,并且即使是错误的,也能发展出连贯且相关的逐步答案,这表明尽管准确率低,但它们确实拥有一些数学知识。
2.3. SuperGLUE
SuperGLUE是GLUE基准的更新版本,包含了一组更具挑战性的语言理解任务。SuperGLUE通过定义一组新的困难自然语言理解(NLU)问题,改善了GLUE基准,将人类和机器表现之间的差距作为度量标准。SuperGLUE基准中大约一半的任务少于1k个实例,除了一个之外所有任务都少于10k个例子,凸显了不同任务格式和低数据训练数据问题的重要性。与人类相比,SuperGLUE在使用BERT作为原始研究的基线时大约低20分。为了接近基准上的人类水平表现,作者认为在多任务、迁移和无监督/自监督学习方法上的进步是必要的。
2.4. HANS
神经网络的优势在于它们能够分析训练集的统计模式,然后将这些模式应用于来自相同分布的测试实例。然而,这种优势并非没有缺点,因为统计学习者,如传统的神经网络设计,倾向于依赖简单的方法来处理绝大多数训练样本,而不是捕捉潜在的概括。损失函数可能不会激励模型学习以与人类相同的方式泛化到越来越困难的场景,如果启发式倾向于产生大多数正确的结果。在人工智能的几个应用中观察到了这个问题。例如,上下文启发式误导了计算机视觉中的对象识别神经网络;一个在正常情况下能够准确识别猴子的网络可能会将携带吉他的猴子误认为是人,因为在训练集中吉他倾向于与人共现,而不是猴子。视觉问答系统也容易受到同样的启发式影响。HANS(Heuristic Analysis for Natural Language Inference Systems)解决了这个问题,它使用启发式来确定前提句子是否蕴含(即,暗示)一个假设句子的真实性。已经证明,神经NLI模型学会了基于特定单词存在的基础启发式,就像在其他领域的情况一样。由于在正常NLI训练集的矛盾实例中不经常出现,模型可以将所有包含单词“not”的输入归类为矛盾。
HANS优先考虑基于基本句法特征的启发式。考虑一下下面的蕴含集中的短语对:
前提:演员支付了法官。假设:演员支付了法官。
一个NLI系统可能不是通过推断这些行的意义来准确标记这个例子,而是假设前提涉及的所有假设术语都出现在前提中。重要的是,如果模型使用这种启发式,即使不是蕴含,它也会错误地将以下内容分类为蕴含。前提:演员被法官支付。HANS旨在检测这种有缺陷的结构性启发式的存在。作者专注于词汇重叠、子序列和组件启发式。尽管这些启发式经常产生正确的标签,但它们并不是合法的推理程序。HANS的目的不仅仅是降低整体准确率,而是确保使用这些启发式的模型在数据集的特定子集上失败。使用HANS数据集对比了包括BERT在内的四个知名的NLI模型。对于这个数据集,所有模型的准确率显著低于随机分布,在大多数情况下准确率仅略高于0%。
2.5. 方法论
我们测试了上述四个数据集,以测试GPT-4的认知心理学能力。模型通过OpenAI提供的ChatGPT-Plus进行访问。我们在结果和讨论部分所示的准确性指标上评估这些模型。准确性是评估大型语言模型性能的基本指标,特别是当应用于心理学数据集时。它衡量模型在所有预测中正确预测的比例。在心理学领域,理解人类行为和认知至关重要,模型的准确性可以至关重要。高准确性表明模型擅长捕捉心理学数据的细微差别。在测试大型语言模型在心理学数据集上时,准确性可以帮助研究人员和从业者评估模型理解和处理心理学概念、理论和模式的能力。随着人工智能领域的不断发展,努力在心理学数据集上提高准确性,确保模型在解释复杂的人类行为和情感方面保持相关性和有效性。虽然准确性至关重要,但同样重要的是确保模型以道德的方式进行测试和训练,尊重心理学数据的隐私和敏感性。
3. 实验结果
我们将首先讨论传统上用于测试认知心理学的数据集中不同模型的人类和机器技能。与人类相比,SuperGLUE在使用BERT作为原始研究的基线时大约低20分。为了接近基准上的人类水平表现,作者认为在多任务、迁移和无监督/自监督学习方法上的进步是必要的。在CommonsenseQA论文中测试的语言模型准确率为55.9%,而作者报告称人类在该数据集上的准确率约为89%。人类在HANS数据集上的准确率范围从76%到97%,作者显示BERT模型在非蕴含类别上的表现低于10%。人类在MATH上的表现从40%到90%不等,而GPT-2/GPT-3的准确率低于10%。
图3显示,GPT-4在CommonSenseQA数据集上的准确率为83.2%,在预代数上约为84%,在几何学上为82%,在HANS上为100%,在SuperGLUE上为91.2%。需要注意的是,HANS数据上的完美结果可能是因为所有使用的示例都是非蕴含的,因为模型可能记住了这个特定的启发式。使用HANS混合数据生成GPT-4结果的实验正在进行中。
3.1. 评估GPT-3的认知能力比较:一项最先进的模型
在之前的一项研究中,研究人员[29]将历史上认为能够解决数学问题的“聪明汉斯”这匹马与现代对大规模机器学习模型的解释,特别是GPT-3进行了比较。研究人员采用系统调查和心理实验来评估GPT-3的决策制定、信息搜索、深思熟虑和因果推理能力。结果表明,GPT-3能够解决某些任务,与人类相似甚至更好。然而,特别是在对任务进行微小更改时,其表现不一致。研究发现,GPT-3在某些任务上表现良好,如赌博和多臂老虎机任务,但在有目的的探索和因果推理等领域缺乏能力。研究人员强调了理解这些模型如何解决任务的重要性,并建议未来的模型将从与世界的积极互动中受益。该研究还突出了认知心理学方法在理解深度学习模型行为中的潜力。
4. 结论
GPT-4是一种最先进的大型语言模型,它为心理学领域带来了革命,因为它为心理学家提供了前所未有的研究和工作资源。这种复杂的AI模型为心理学家和精神病学家提供了更多了解人类心智的机会,并提出新的治疗方法和途径。它为提高心理治疗的有效性提供了途径,并允许专业人士花更多时间与客户在一起,从而形成更深入和更有成效的治疗关系。只有对模型进行基础的推理和认知测试,才能实现GPT-4的潜在应用。认知心理学使人类能够在个人和职业生活中进行各种活动[30]。我们展示了GPT-4的表现大大超过了原始研究中使用的语言模型,因此它可以成为心理学家的日常实用工具。这一发展可以为应对当今社会面临的心理健康挑战带来连锁效益。