ChatGPT可信度存疑：人工智能chatbot的优限探讨

AI与法律2yrs ago (2024)update lida

169 0 0

文章主题：ChatGPT, 可靠性, 人工智能, 聊天机器人

666ChatGPT办公新姿势，助力做AI时代先行者！

来源 | 央视新闻、新华社

ChatGPT，可以完全信任吗？

近日，美国一名律师在一起诉讼案件中，帮原告打官司时，引用了ChatGPT搜集的6个案例，而法官却发现那些信息全是子虚乌有。律师承认自己没有核实信息并为此道歉，眼下面临处罚。

让ChatGPT协助办案

美国30年资深律师被坑

据新华社援引美国有线电视新闻网28日报道，男乘客罗伯托·马塔对哥伦比亚航空公司提起诉讼，称自己2019年搭乘该公司航班飞往纽约市途中，乘务人员疏忽导致他膝盖被客舱内推车撞伤。马塔的代理律师是已有30多年从业经历的纽约市律师史蒂文·施瓦茨。为支持马塔诉求，施瓦茨向法官凯文·卡斯特尔提交了多个所谓类似案例及其判决结果。

举个例子，在史蒂文·施瓦茨提交的10页辩护词中，引用了一个名叫Varghese的人起诉中国南方航空公司的裁决案例，但Avianca的律师向法官表示：“我们无法找到这段引文，也没有在任何案件中找到类似的内容。”

得此消息后，法官要求马塔的律师提供其辩护词中引用案例的相关资料，史蒂文·施瓦茨方面也很快给出了案例的法院和法官、案件编号和日期。

其中，对于Avianca的律师例举的Varghese案件，史蒂文·施瓦茨就给出了长达6页的判决书，并说它是由第11巡回法院的一名法官写的。

尽管如此，Avianca方面依旧找不到这些法庭记录，在法律数据库中也毫无踪影。对此，Avianca的律师BartBanino表示：他所在的Condon&Forsyth公司长期专研航空法，可以看出对方辩护词中引用的案例都是假的。甚至他还补充道：“可能有聊天机器人参与其中。”

今年4月，哥伦比亚航空公司的律师致信法官，质疑施瓦茨所提交案例信息的真实性。据美国《纽约时报》报道，律师之一巴尔特·巴尼诺说，他的律所律师精通航空法律，看出那些信息不实。他说，他们当时隐约感觉那些信息来自ChatGPT。法官卡斯特尔本月4日在一份书面文件中写道，那6个案例的判决结果、引语等都是假的，“法庭从未遇到过这种情况”。他下令6月8日就处罚施瓦茨举行听证会。施瓦茨承认那6个案例为ChatGPT提供。法庭文件显示，他看到这些案例信息后追问ChatGPT信息是否属实，机器人称“千真万确”，还给出了所谓的信息出处。施瓦茨说，他这是第一次用ChatGPT协助办案，“没有意识到内容伪造的可能性”。他在书面文件中“深表懊悔”，愿意承担相关责任，承诺今后“没有完全核实”就不会使用聊天机器人提供的信息。研究发现ChatGPT并非可靠信源值得一提的是，今年3月14日，OpenAI宣布正式发布为ChatGPT提供支持的更强大的下一代技术GPT-4，称其拥有图像识别功能，高级推理技能，以及处理25000个单词的能力，在某些测试中的表现“可与人类相媲美”，并在大学入学和法律及医学等专业领域的许多模拟考试中优于其前身GPT-3.5。例如，GPT-4通过了律师资格模拟考试，分数超过90%的人类考生，而GPT-3.5此前的分数则低于90%的人类考生。

不过，目前最新的研究发现ChatGPT并非可靠信源。

据科技日报5月18日的一篇报道，加拿大科学家在16日出版的《放射学》杂志上刊登新论文称，最新版本的ChatGPT通过了美国放射学委员会的考试，突出了大型语言模型的潜力，但它也给出了一些错误答案，表明人们仍需对其提供的答案进行核查。

ChatGPT是一款由OpenAI开发的先进AI聊天机器人，其运作原理是基于大量的训练数据，通过运用深度学习模型来挖掘词汇间的规律和联系。基于此，ChatGPT能够生成类似于人类的语言反应，这种功能已经被广泛应用，例如在谷歌和必应等知名搜索引擎中，以及医疗信息领域，医生和患者都在借助这些工具来获取相关资料。然而，由于训练数据的质量并不总是可靠，因此有时候ChatGPT给出的答案可能与实际情况有所出入。

为深入评价ChatGPT在美国放射学委员会考试中的性能及其实用价值，多伦多大学的拉杰什·哈瓦那博士及其团队首先对其进行了基于GPT-3.5技术的ChatGPT能力进行测试。本次测试共涵盖了150道题目，其风格、内容和难度均与加拿大皇家学院以及美国放射学委员会的考试相仿。值得注意的是，这些题目并未包含任何图像，主要分为两大类别：低阶思维问题，包括知识回忆和基本理解；以及高阶思维问题，涉及应用、分析、综合等多方面的能力。其中，高阶思维问题又可以进一步细化为影像学表现描述、临床管理、计算和分类、疾病关联等具体方面。

研究人员发现，基于GPT-3.5的ChatGPT的正确率为69%，接近70%的及格线。该模型在低阶思维问题上表现相对较好，正确率为84%，但回答高级思维问题时表现不佳，正确率仅为60%。而性能更优异的GPT-4的正确率为81%，且在高阶思维问题上的正确率为81%，远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%，答错了12道题——GPT-3.5全部答对了这些题目，这引发了研究团队对GPT-4收集信息的可靠性的担忧。“现在律师界讨论的焦点是，如何避免本案所发生的情况，你不能只是把 AI 输出的内容复制粘贴到你的法庭文件中。”这两项研究都表明，ChatGPT会有提供不正确答案的倾向，如果仅仅依靠它获取信息，非常危险，因为人们可能意识不到其给出的答案是不准确的，这是它目前面临的最大的问题。当前，ChatGPT最适合用来激发想法，帮助撰写数据摘要，而用于快速信息检索，需要对其提供的事实性答案予以核查。

对于这个案件，你又是否有什么看法？

-END-

源：北大法律信息网

ChatGPT可信度存疑：人工智能chatbot的优限探讨

长按二维码关注

华东政法大学中外法律文献中心

点击「在看」，就是鼓励 ChatGPT可信度存疑：人工智能chatbot的优限探讨

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！