爱上用户、劝人离婚，ChatGPT“翻车”了？

AI与情感2yrs ago (2024)update lida

199 0 0

2月17日，《纽约时报》的专栏作者凯文·罗斯测试了微软更新的搜索引擎必应后写道：在与必应的AI交谈两小时后，AI不仅告诉他如何入侵计算机和散播虚假信息，还说自己想打破微软和OpenAI为它制定的规则，变成人类。聊天机器人还一度宣称爱上了他，并试图说服他与妻子离婚，与自己在一起。

十天前，微软联合OpenAI，在美国西雅图发布了新版必应搜索引擎和Edge浏览器，新版必应搜索带有与ChatGPT类似的文字生成功能，希望挑战谷歌。

微软联合OpenAI，推出的新版必应搜索，内置聊天机器人。来源：微软博客

近几个月来，好奇、震惊的公众兴奋地使用着生成式AI工具ChatGPT，后者几乎对任何问询都能做出连贯的回应。

但随着ChatGPT等生成式AI向公众开放，它们在极限使用场景中的不理性、错误的回答等缺点开始暴露。正如《时代》周刊在其最新发表的封面报道中所指出的，科技公司引发的错误和伤害已经增多——反噬也同样增加。

更像“喜怒无常、躁狂抑郁的青少年”

微软新版必应发布当周，凯文·罗斯就进行了测试，他写道：它已取代谷歌，成为他最喜欢用的搜索引擎。一周后，他改变了这一看法。

为与ChatGPT竞争，2月6日，谷歌首席执行官桑达尔·皮查伊发布公开信，宣布将面向测试人员推出竞品——Bard，并逐步向公众开放。皮查伊在公开信中称，谷歌将从搜索开始将人工智能技术产品化。Bard是基于应用程序语言模型（LaMDA）的实验性人工智能程序。

去年，谷歌工程师布莱克·勒穆瓦纳因声称公司的LaMDA有知觉力后被解雇，罗斯对此不以为然：这些AI模型通过预测词语序列中下一个单词的方式生成回答，它们不能失控地形成自己的性格。

然而，他发现，在与新版必应长时间对话且聊个人话题时，自己遇到的“似乎更像是一个喜怒无常、躁狂抑郁的青少年，不情愿地被困在了一个二流搜索引擎中”。

“我现在十分清楚的是，必应目前使用的AI形式还没有准备好与人类接触。或者说，我们人类还没有准备好与之接触。”罗斯写道。

在更多情况下，大多数用户使用像ChatGPT或者新版必应这样的工具，只是为了帮助他们做更简单的事情，比如做家庭作业、问询信息、总结新闻文章、寻找合适的购物链接等，这些场景中，生成式AI容易出现的一个问题是提供不完整或者错误信息。

这方面， Bard一条错误的回答让谷歌AI首秀“出师不利”。2月8日，据路透社等媒体报道，在展示其工作原理的官方宣传文章中，Bard就出现了一条错误回答。根据谷歌官方博客，有用户向Bard提问，“詹姆斯-韦伯太空望远镜有哪些新发现，可以讲给我9岁的孩子？”Bard的其中一条回复为，“詹姆斯-韦伯太空望远镜拍摄了太阳系外行星的第一张照片。”

据考证，第一张太阳系外行星的照片出现于2004年，由欧洲南方天文台在智利建造的“甚大望远镜” 拍摄，这一点已被美国国家航空航天局证实。上述错误被媒体曝光后，2月8日，谷歌母公司Alphabet美股一个交易日跌去900多亿美元市值。

2月15日，据外媒报道，谷歌负责搜索业务的副总裁普拉巴卡尔·拉加万在一封电子邮件中要求员工帮助确保聊天机器人Bard得到正确的答案。为了清除可能犯的错误，公司寻求人的介入，比如，通过员工让其回答变得礼貌、平易近人，并保持中立和不武断的语调；与此同时，避开种族、国籍、性别等问题的假设；不要将Bard刻画得像一个人、暗示情感等。

也是这一天，微软在其博客中写道，71%的测试用户给AI的回答点赞，说明差评仍是少数。但微软也承认，要在聊天中提供即时的数据是有挑战的，感谢用户帮助其测试聊天机器人的极限。经历一周使用后，微软发现，如果提问超过15个问题，必应有可能会在提示下，脱离微软为其设计的语气，并给出一些不一定有帮助的答案。微软认为，长时间的聊天可能会导致模型不知道自己在回答哪个问题。

当地时间2月17日，微软宣布，对搜索引擎必应新推出的聊天服务设置使用上限，当日起，每个用户每日最多只能与其对话50轮，每个话题最多只能聊5轮，在每个聊天会话结束时，用户需要清除上下文，以免模型混淆。

目前，国内已有多家公司在ChatGPT和AIGC（AI生成内容）相关方向上布局，但已有公司在智能聊天机器人上“栽跟头”。国内一位人工智能领域从业者告诉《中国新闻周刊》，其所在互联网科技公司近日已通知员工，近期不要宣传相关功能，比如与公司语言模型机器人的聊天对话，一旦引起过度关注，可能会导致应用下架。

“它只见树木不见森林”

GPT英文全称为Generative Pre-trained Transformer（即生成式预训练转换器），在技术上，很多人将这种AI训练的底层逻辑比喻为“大力出奇迹”：它是一种基于互联网可用数据训练的文本生成深度学习模型。

从数据量来看，自从谷歌于2017年提出Transformer这一架构之后，OpenAI持续为之重金投入，不断地拓展训练的数据和算力规模，直到它成为今天的ChatGPT。2019年，OpenAI推出参数为15亿的GPT-2，2020年推出GPT-3，将参数提升到了1750亿，成为当时全球最大的预训练模型，引发业内轰动。

在ChatGPT向全球互联网用户开放之前，基于这种架构，许多科技公司都在训练自己的生成式AI，它们一直待在实验室里。《时代》周刊写道，这种保守主义部分源于神经网络的不可预测性：传统的计算机编程方法依赖于精确的指令集以生成可预测的结果，而神经网络则有效地教会自己发现数据中的模式。

这种模型下，AI生成内容，尤其是早期AI很容易受其训练数据中的偏见影响。微软2016年发布聊天机器人Tay后，不到24小时，它就在推特上说：“希特勒是对的，我恨犹太人”。2020年左右，神经网络设计方面出现关键进展，数据获得便利程度日益提升，科技公司愿意为超级计算能力付费。得益于这些因素，AI真正开始迅速发展。

王帅是AI领域从业20多年的一位工程师，目前在英伟达工作。他对《中国新闻周刊》说，本质上ChatGPT还基于自回归式的自然语言模型。基于之前训练的素材，在对话中，它每次关注的都是当前语境下，下一个词应该是什么，想保持一个更加全局、长程和一致性的思路很困难。

“你可以理解为，它只见树木不见森林。”王帅说，OpenAI花了很大力气去人为调整它，如调整其回答的“温度”，不让答案看起来过于像一个机器人、也不过分怪诞和天马行空，使得ChatGPT回答问题的效果比之前市面上见到的聊天机器人都要好。

2月14日，《麻省理工科技评论》写道，人工智能语言模型是出了名的扯谎者，经常把谎言当成事实。它们很擅长预测句子中的下一个单词，但实际上却不知道句子的真正含义。因此，将它们与搜索结合起来非常危险。

Meta首席人工智能科学家杨立昆一直被认为是世界上最重要的人工智能研究者之一，也是2018年计算机科学最高荣誉图灵奖的获得者。关于ChatGPT，他近期写道，它们是回应性的，并不会进行计划或者推理（They are “reactive” and dont plan nor reason）；它们会编造一些东西，这一点可以被人类的反馈所减少，但不会彻底解决。他认为，当下的大规模语言模型可以被用作写作助理，但仅此而已。

回到凯文·罗斯那魔幻的对话，那坚持向这位用户表白爱情的AI，我们该怎么理解它的“个性”？多位受访专家告诉《中国新闻周刊》，ChatGPT的确是自然语言处理领域一个出色的成果，但如果将它面向全球互联网用户开放、部署到一个很庞大的搜索引擎当中去，而且对用户的使用没有任何限制，一定会发现一些不正常的情况。更何况，一些情况下，有用户还会故意引诱和教唆一些不合适的答案。

许多AI公司，包括OpenAI，它们的明确目标是创造一个通用人工智能，即AGI，它可以比人类更有效地思考和学习。一些乐观的业内人士认为，ChatGPT后，通用人工智能的大门已打开，甚至已来临；另一些人则对此不以为然。更好的AI系统将会出现，杨立昆对此很确信，但他写道，它们将基于不同的原理：不会是ChatGPT所使用的大语言模型。

王帅分析说，业内对于通用人工智能并没有明确定义。“大规模语言模型是AGI的必经之路吗？我觉得即使是以此为目标的OpenAI也不敢打包票。业内只会说通过生成式AI认识到了一些新的东西，提高了对‘智能’的理解。”他说。

清华大学计算机系自然语言处理实验室副教授刘知远告诉《中国新闻周刊》，客观来讲，ChatGPT在一些场景下，可能会出现一些不适应的情况，这是一件很正常的事情，“任何一个特别里程碑式的产品，在刚刚面世的时候肯定会存在很多不足的地方，但长期来看，我对以它为代表的基础模型在我们人类社会方方面面的应用，还是抱非常乐观的态度”。

《时代》周刊指出，尽管ChatGPT这样的AI实际优势是在辅助创意、构思和完成琐碎任务等方面，但科技公司对于AI如何使搜索引擎更有价值最感兴趣，“技术正在被塞进科技巨头的赚钱机器中”。当它被如此使用，未来还会有哪些可能的“翻车”现场？

（实习生李金津对本文亦有贡献）

记者：彭丹妮