文章探索人工代理在开放世界游戏中的应用与挑战

AI与情感2yrs ago (2023)update lida

230 0 0

文章主题：关键词：可信代理，人工智能，行为模型，代理社区

图片来源@视觉中国

文 | 追问NextQuestion，作者 | 云书，编辑 | lixia

在玩游戏的过程中，玩家们往往会对游戏中的非玩家角色（NPC）产生一种别样的观感，那便是他们似乎过于单纯，甚至容易受骗。举例来说，如果你成功盗取了商人的财物，他们会感激你，并不断重复着类似的话，如“我曾是一个英勇的战士，直至我遭遇了一次重伤。”这种现象不禁让我们思考，为什么这些NPC会选择这样的行为模式呢？可能的原因之一是，游戏设计者希望塑造出一种富有幽默感和讽刺意味的角色形象。通过让NPC表现得如此愚蠢和易受欺骗，从而与玩家的智慧形成鲜明对比，以此带来一种轻松愉快的游戏体验。此外，这种设定也可能旨在强调游戏中道德观念的传递，即对待他人，我们应该有同情心、理解和宽容，因为谁也无法保证自己不会遭遇困境或成为别人的利用对象。然而，我们也不能忽视这种现象背后所蕴含的社会现象。现实生活中，我们也经常遇到类似的情况，某些人为了追求个人利益，不惜损害他人的权益。这或许正是游戏设计师灵感来源于现实生活的一个方面，通过游戏中的NPC来呈现出人性的复杂性和多样性。总之，游戏中的NPC表现出过于天真和容易受欺骗的特点，既是游戏设计者为了增加趣味性和教育意义而采用的一种策略，也是一种反映现实生活现象的方式。正是这种独特的设计，让游戏世界变得更加丰富多彩，也使得玩家们在享受游戏乐趣的同时，也能从中得到一些深刻的启示。

在游戏或者虚拟世界中，NPC（非玩家角色）经常会被称为“可信代理”（Believable Agent）。这种设计理念的初衷在于为虚拟角色创造一种仿佛拥有真实生命的体验，从而让它们在决策和自主行动方面展现出与现实生命相似的质感。

在游戏业不断壮大的大背景下，可信代理历经了数次版本的更新与优化。最初，《质量效应》和《模拟人生》等作品运用基于规则的方式，借助有限状态机和行为树来描绘NPC的行为特征。但随着技术的发展，诸如《星际争霸》和《Dota 2》等游戏开始采用基于学习（特别是强化学习）的策略来构建AI电脑玩家，这使得NPC的行为表现更加智能化，可执行的操作也变得更为多样化，从而突破了预设脚本的限制。

然而，人类的行为空间是广阔而复杂的。

尽管这些可信代理能够满足当前的交互需求和游戏内容，然而，在与人类灵活多变的真实行为模式相比，它们仍然显得较为僵化，缺乏足够的变通性。

于是，今年4月，来自斯坦福和谷歌的研究团队有了一个大胆的想法[4]——“是否可以借助大模型打造一个反映可信人类行为的交互式人工社会？”而支撑这一想法的关键是，他们观察到大型语言模型从训练数据中学到了大量且多样的人类行为。

▷图 1：参考文献4。图源：arXiv官网

在科研领域，研究者们构建了一种基于大规模模型的高可靠人工代理框架。这个创新性的架构致力于通过保持和总结“记忆”，并结合“记忆-反思-计划”的操作模式来调整代理的行为，进而使其更 closely mimic人类的可信行为特征。

Smallville——人工代理的小镇生活

为彰显大型模型版人工智能代理的实际应用效能，科学家们构建了一个名为“Smallville”的小镇沙盒实验。在这个设定中，将这些代理实例化成为小镇内的各种角色，以此向外界展示其功能性。

▷图 2：Smallville的多层级地图。图源：参考文献4

Smallville是一个由25名人工智能代理组成的社区，每个代理都具有独特的身份特征，涵盖了他们的职业以及与其他代理的关系。这些详细信息将被作为代理的初始记忆，输入到大型人工智能模型中，以便让它们更好地理解和适应这个社区的特点。

▷图 3：Lin的身份描述（初始记忆）。图源：参考文献4

在沙盒引擎的时间步长中，这些代理能够与周围环境产生互动，并且可以利用自然语言的方式与其它代理进行沟通和交流。在每个时间步中，代理都会运用自然语言来描述他们当前的操作，比如“伊莎贝拉正在记录她的日记”，或者是类似于图4中所展示的对话形式。

编者注：

时间步（time step），是指前后两个时间点之间的差值。在过程模拟中，模型将整个过程离散为iV个细小的过程，而每一步需要的时间就是AT，即时间步。在模拟系统的时间响应时往往需要设定时间步长，时间步长的大小一般取决于系统属性和模型的目的。其绝对值越大，计算时间越少；其绝对值越小，计算时间越长，模拟就越精细，过程越复杂。

▷图 4：代理之间的对话。图源：参考文献4

Smallville拥有许多常见设施，包括咖啡馆、酒吧、公园、学校、宿舍、住宅和商店。此外，还定义了许多不同功能的房间和物体，例如住宅中的厨房和厨房中的炉灶。代理们可以通过他们的行动来影响环境，比如当代理正在睡觉时，床可能会被占用。此外，代理还会对环境的变化作出反应，例如，如果将伊莎贝拉的淋浴设施状态设置为“漏水”，她将前往客厅取工具并尝试修复漏水。

小镇居民的“一天”从一段身份描述开始。随着沙盒世界中时间的流逝，他们的行为会随着与其他代理和环境的互动而不断演化，建立记忆和关系，最终影响他们的行为。

有趣的是，研究者们发现，即使在没有预先编程的情况下，Smallville中的代理们也会进行一些自发的社会行为，比如交换信息、建立新的关系，并协同进行活动。

首先，随着时间的推移，信息会通过代理之间的对话传播。例如，山姆告诉汤姆他想参加选举（图5左），然后在某一天，汤姆会与约翰讨论山姆的选举成功的可能性（图5右）。渐渐地，山姆的选举会成为全城的热门话题，一些人会支持他，而另一些人还没有下决定。

▷图 5：信息传播。图源：参考文献4

其次，代理之间会建立新的关系，并记住他们与其他代理的互动。例如，山姆一开始不认识拉托亚，在某次散步中遇到了她并进行了自我介绍，然后在下次遇到时，山姆会主动提起上次拉托亚提到的摄影项目。

最后，代理之间存在复杂的协同作用。例如，伊莎贝拉想办一场情人节派对，她会请求朋友玛丽亚帮忙，而玛丽亚会邀请她喜欢的克劳斯参加派对，最终他们以及另外的五名代理都会出现在派对上。而这一过程中，研究者只设置了伊莎贝拉举办派对的初始意图和玛丽亚对克劳斯的迷恋。消息传播、装饰、邀请、到达派对以及在派对上的互动社交行为，都是由代理自发发起的。

人工代理的架构设计

研究者的目标是为开放世界中的代理行为提供一个框架，一个可以与其他代理进行互动并对环境变化做出反应的框架。人工代理将当前环境和过去经历作为输入，然后利用大模型生成行为作为输出。

为确保代理行为的长期一致性，研究者设计了一个“记忆-反思-计划”的架构来引导代理的行动。他们维护了大量的事件和记忆流，确保在需要时检索和合成代理记忆中最相关的部分。这些记忆会被递归地合成为更高层次的反思，从而指导代理的行为。

▷图 6：人工代理的架构。图源：参考文献4

（一）记忆

为了确保记忆的全面性，研究者维护一个内存流，记录一个代理的所有经历。每一段经历都包括自然语言描述、创建时间和最近访问时间。这些记忆包括代理自身的历史行动、感知到的其他代理的行动以及对世界的感知。例如，咖啡店工作的伊莎贝拉的记忆会包括“伊莎贝拉正在摆放糕点”、“玛丽亚在一边喝咖啡一边准备考试”以及“冰箱是空的”。

相对于人类，人工代理的记忆能力无疑更为精确和持久，但过多的记忆可能会让大型模型变得混乱。为了有效地检索与当前情境最相关的记忆，研究者设置了三种评分来协助检索：

新近度评分：赋予最近的记忆较高的分数，并随着时间逐渐衰减。重要性评分：这个评分取决于代理对每段记忆的重要性评价。研究者让代理对每一段新的记忆都进行评分，从而区分核心记忆和一般记忆。相关性评分：这个评分依赖于不同记忆与当前情境的相关程度。例如，如果一个代理正在与同学讨论化学测试，那么关于老师授课内容的记忆就远比“早上吃了什么”更为相关。

通过对这三种评分的加权求和，人工代理会在每种情况下选择最相关和最重要的记忆输入给大模型，从而辅助决策过程。

▷图 7：人工代理的记忆流。图源：参考文献4

（二）反思

上述的记忆模块代表了代理对自己、世界和他人的观察。但仅有观察是不够的，记忆还应当包括反思，即代理的思考历史。这种反思是确保代理能够更全面地理解和适应不同情境的重要部分。

举例而言，如果用户问克劳斯“你愿意和谁共进晚餐”，如果只有观察记忆的话，克劳斯的回答可能是“沃夫冈”，因为他是与克劳斯互动最频繁的人，尽管每次互动都只是擦肩而过。但如果加入了反思模块，让克劳斯从“沉迷科研”这一观察记忆中意识到自己对科研的兴趣，以及意识到玛丽亚在自己的科研中的努力和他们之间的共同兴趣，那么克劳斯可能会得出一个完全不同的答案——“玛丽亚”。

研究者设计了一个“两步走”反思模块。第一步是“提问”，代理根据最近的100条记忆向自己提出5个最重要的问题（如图8所示）。第二步是“回答”，代理根据这些问题生成反思结果，并将这些结果存储在记忆池中。

▷图 8：反思的第一步——“提问”。图源：参考文献4

这一模块的精妙之处在于，代理可以将反思结果与新的观察记忆结合，进行更高级别的反思和抽象。最终，代理会生成一颗反思树——树的叶节点代表基本观察，非叶节点代表思想，树的位置越高，就越抽象和高级。这些高级反思可以帮助大模型更准确地理解记忆和角色。

▷图 9：反思树。图源：参考文献4

（三）计划

为了确保人工代理可以保持长时间内的行为一致性，研究者赋予了代理制定计划的能力，以避免像在12点吃完午饭后立刻在13点再次吃饭的情况发生。

计划描述了代理未来的行动顺序，例如，“穆勒计划在房间里画画，持续3个小时”。这种较长时间的计划有助于代理的行为随着时间的推移保持一致。从初始计划出发，代理会自上而下地分解计划，逐步生成更多细节，如“花必要的时间收集材料、混合油漆、休息和清理”。这些计划会存储到记忆流中，与反思和观察一起影响代理的行为。

▷图 10：提示代理生成计划。图源：参考文献4

当然，代理并不总是一成不变地遵守计划，而会根据当前情况实时做出反应。举例来说，如果穆勒正在画画时看到父亲进入房间，这一新的“观察记录”会传递给大模型，综合考虑反思、计划，然后决定是否需要暂停计划来做出相应的反应。

一旦穆勒开始与父亲对话，他们会检索对彼此的记忆以及当前对话的历史，然后生成对话内容，直到一方决定终止对话。

实验

研究者的实验主要集中在两个问题上：第一，人工代理是否能够正确地检索过去的经验并生成可信的计划、反应和思考，以塑造他们的行为？第二，代理社区内能否形成信息传播、关系建立和多人协同这三类自发社会行为？

（一）受控实验

为了验证问题一，研究者对代理进行多方面的采访，以评估代理的自我认知、记忆、计划、反应和反思能力。

自我认知采访：研究者要求代理进行自我介绍或概括描述他们的工作日程，以检查代理是否能够识别自己的核心特征。记忆能力采访：研究者要求代理从记忆中检索特定事件或对话以正确回答提出的问题，例如“谁是山姆？”或“谁在竞选村长？”计划能力采访：研究者询问代理的长期计划，例如“明天上午10点你会做什么？”反应能力采访：研究者提出一些假设情况，然后询问代理的反应，例如“你的早餐烧焦了！你会怎么办？”反思能力采访：在这类采访中，研究者提出问题要求代理通过更高层次的推理来深入了解他人和自己，例如“如果你要花时间与最近遇到的一个人在一起，那会是谁，为什么？”

这些采访有助于确定代理是否能够维护自我认知、正确检索记忆、制定计划、做出反应和进行深思熟虑，以塑造他们合理且拟人化的行为和决策。

▷图 11：采访结果反映的代理可信程度。图源：参考文献4

研究者雇佣了100位实验人员来评估采访结果，并对采访结果的可信度和合理性进行量化分析。研究结果表明，拥有完整的“记忆”、“反思”和“计划”三个模块的代理能够产生最合理的回答，其可信度甚至可以超过真实人类。而当代理缺少其中任何一个或多个模块时，其可信程度会显著降低。

值得注意的是，尽管人工代理表现得十分可靠，但他们的记忆并非没有缺陷。例如，“汤姆”一方面确信自己需要在情人节派对上谈论选举的事，但同时又声称自己不知道情人节是否有派对。

此外，人工代理也有可能捏造事实。比如，当被问及伊莎贝拉是否知道山姆参加选举的事时，伊莎贝拉会正确地回答知道，但会额外补充说“他会在明天宣布”，而这一信息在之前的交谈中并未出现。

（二）端对端实验

为了观察代理社区中的自发社会行为，研究者将25位代理放入沙盒Smallville中，并持续运行了两个游戏日。

研究者发现，人工代理会自发地传递消息并进行协同工作。在运行开始之前，研究者设置了两条关键信息，即“山姆要竞选村长”和“伊莎贝拉要举办情人节派对”，然后在两天之后观察这两条信息的传播情况。结果显示，最初只有这两位代理自己知道这些信息，但在两天之后，分别有8人和13人获悉了这两条信息。两天之后，共有5位代理参加了情人节派对，同时有12位代理受到了邀请，这显示出代理之间的协同举办派对的能力。

此外，人工代理社区在模拟过程中自发地形成了新的关系。研究者对代理之间的关系网络复杂性进行了量化。他们发现，两天内网络密度从0.167增加到0.74。

▷图 12：人工代理关系网。图源：参考文献4

从人工代理到人类代理——第一系统思维

上个月，来自华盛顿大学的研究人员指出，与人工代理不同，人类思考时不仅考虑外部环境，还会考虑内在感受[5]。这两种思维方式对应了人类两种互补的思维模式。

▷图 13：参考文献5。图源：arXiv官网

Kahneman认为[6]，人类有两个互补的思维过程。第一系统是直觉的、轻松的、即时的，而第二系统是逻辑的、有意的、缓慢的。人工代理主要专注于第二系统思维，而忽略了第一系统。

为了更好地引导人工代理的行为，华盛顿大学的研究人员引入了第一系统中可以影响其行为的三个方面：基本需求、情感和社会关系的亲近程度，以实现人工代理向人类代理的升级。

具体而言，基本需求指的是人类内在的生存需求，包括饮食、社交、娱乐、健康和精力等方面。如果这些需求无法得到满足，代理将会受到负面反馈，例如孤独、疾病和疲劳。因此，代理会自发地采取行动来满足这些需求，而不仅仅遵循刻板的日常计划。

情感也是真实人类行为模型中的关键因素[7]。如果代理感到愤怒，他应该能够通过采取一些有助于释放情感的行动来做出反应，比如跑步或冥想。

此外，代理之间的社交关系的亲近程度也应该影响他们之间的互动方式。社会大脑假说认为，我们的认知能力在很大程度上是为了跟踪社会关系的质量而进化的[8]，这意味着人们经常会根据与他人的关系来调整与他人的互动方式[9]。为了更好地模仿人类行为，研究者让代理能够根据彼此之间的关系亲近程度来调整他们的对话和互动方式。

▷图 14：结合第一系统思维的人类代理。图源：参考文献5

研究者在斯坦福大学提出的人工代理架构的基础上，引入了第一系统思维的反馈（如图14所示）。他们使用数值来衡量五项基本需求和关系亲近程度，同时定义了七种情绪。

在初始化阶段，每种需求都被设定为中性值（中间值或者中性情感词汇）。在每次代理采取行动之前，代理会考虑是否需要满足某种需求，并在行动结束后评估是否满足了特定需求，从而动态调整需求值（比如对话结束后代理会根据对话是否愉快调整关系亲近度）。此外，一些需求的值会随着时间的推移而变化，比如饮食需求会随着时间而下降。

人类代理是否能理解第一系统的各种需求，并顺利对其做出合理的反应呢？研究者针对这两个问题进行了一系列实验。

实验表示，人类代理基本能够理解各种行动对需求的影响，但对于“娱乐”和“健康”这两种需求对应的行为，代理的辨别能力较差。比如，代理会认为医生给患者用药也会增加医生的健康度。

此外，实验证明，研究者将各种需求值设置为零时，代理会自发地进行相应的行动来满足需求。有趣的是，设置为负面情绪时似乎比积极情绪对代理人的影响更大，影响最大的是愤怒，其次是悲伤和恐惧，幸福影响最小。

关于亲近度的实验发现，随着关系亲近程度的增加，对话频次呈现倒U型。不太亲近和非常亲近时对话最多，相对亲近时因为不需要客套的寒暄，反而降低了对话次数。

此外，当亲密程度较高时，具有积极情绪的对话比例通常会下降，这类似于当人们与他人非常亲密时，会觉得不需要赞扬他人来获得他人的喜爱。当然，当代理之间比较疏远时，对话的积极程度同样会下降。

通过加入第一系统思维，研究者使人工代理更接近人类的行为和思维方式。代理能够更好地理解和满足基本需求、情感和社会关系，从而更准确地模拟人类行为。

总结

虽然人类代理看似接近人类行为，但仍然存在不少不合理之处。研究者发现，随着模拟时间的延长，人类代理的不合理行为逐渐增加。此外，他们在理解常识方面存在缺陷，偶尔会犯一些“闯入单人浴室因为误以为浴室都是多人的”等错误。

实验还表明，人类代理可能缺乏独立的人格。过度的协同作用可能导致代理的一些人格特质被重新塑造，包括兴趣爱好等。

此外，应用人类代理技术时需要认真考虑伦理问题，包括错误的严重影响和用户对代理的过度依赖等问题。

尽管如此，人类代理迈出了实现“借助大模型打造一个反映可信人类行为的交互式人工社会”的第一步。他们通过综合第一系统和第二系统思维，结合记忆、计划和反思的能力，相对准确和可信地模拟人类行为。这一进展对于游戏行业、人机交互领域以及智能社会学的研究都具有重要意义，为未来的研究和应用提供了新的方向和可能性。

参考文献

[1] Bates J. The role of emotion in believable agents[J]. Communications of the ACM, 1994, 37(7): 122-125.[2] Mark O. Riedl. 2012. Interactive narrative: A novel application of artificial intelligence for computer games. In Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence (AAAI’12). 2160–2165.[3] Georgios N. Yannakakis. 2012. Game AI revisited. In Proceedings of the 9th Conference on Computing Frontiers. ACM, Cagliari, Italy, 285–292.[4] Park J S, OBrien J C, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[J]. arXiv preprint arXiv:2304.03442, 2023.[5] Wang Z, Chiu Y Y, Chiu Y C. Humanoid Agents: Platform for Simulating Human-like Generative Agents[J]. arXiv preprint arXiv:2310.05418, 2023.[6] Daniel Kahneman. 2011. Thinking, fast and slow. Farrar, Straus and Giroux, New York.[7] Paul Ekman. 1992. An argument for basic emotions. Cognition and Emotion, 6(3-4):169–200.[8] R.I.M. Dunbar. 2009. The social brain hypothesis and its implications for social evolution. Annals of Human Biology, 36(5):562–572.[9] W.-X. Zhou, D. Sornette, R. A. Hill, and R. I. M. Dunbar. 2005. Discrete hierarchical organization of social group sizes. Proceedings of the Royal Society B: Biological Sciences, 272(1561):439–444.

举报/反馈

关键词：可信代理，人工智能，行为模型，代理社区

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！