《人工智能领域的多元进步与挑战》

AI与情感2yrs ago (2024)update lida

251 0 0

文章主题：人工智能, 生成式AI, 模型, 开源

撰文 | 新皮层小组

编辑 | 吴洋洋

这一周，我们看到了越来越多的矛盾现象。

原内容提到了人工智能公司对生成式AI的进一步布局，其中特别提到了Meta即将推出的编程AI模型Code Llama，这将使得Llama家族再添一位新成员（此前的Llama和Llama 2）。一如既往，Meta也将对新模型Code Llama保持开源。对于这一动向，你可能已经有所了解，Meta的Llama系列模型在开源之后，给整个行业带来了深远影响。特别是那些专为文字生成的Llama和Llama 2，它们的开源使得「闭源模型没有护城河」的说法逐渐成为现实。预计接下来，我们将看到许多小型开发生成式模型的公司寻求出售的消息。这是因为大量的基于更好开源模型调优的模型如雨后春笋般涌现。值得一提的是，文生图起家的Stability公司（是的，现有的文生图模型基于的Stable Diffusion Model就是这家公司开发的）在本周发布了聊天机器人Stable Chat，其基础模型正是Meta的Llama 2。

在智能体（Agent）领域，斯坦福大学和Google研究部门共同推进的「AI小镇」项目已经正式开源，向所有对AI充满好奇的开发者开放，让大家有机会亲自体验并比较这两种AI之间的差异，一种是能够自主决策的AI，另一种则是擅长聊天的AI。智能体的概念既古老又新颖，它源于人类对AI可能带来的担忧，特别是Hinton教授 concerns，他指的是AI能够将复杂任务拆解为多个子任务，并逐一完成这些子任务的能力，然而，他却认为人类对于AI总目标的控制力有限，而对于AI推理和拆解出的子目标则难以掌控。这个观点并非新鲜，实际上，早在ChatGPT刚刚亮相时，Hinton就已经表达了对这种担忧的忧虑。因此，虽然”Agent”这个名词并不算新鲜，但是，真正开始着手布局”高级AI”的公司——OpenAI，却是一个全新的故事。

当前，业内或许只有GPT-4具备满足agent所需推理能力的能力，而其他模型的表现则尚不足以胜任，而GPT-4恰好是由OpenAI研发的。最近，这家最具潜力开发agent的公司做出了一个重要的决策——投资了一家专注于开发类似于《我的世界》等高开放度与自由度的沙盒游戏（Sandbox Game）的游戏公司。这种环境对于训练agent来说再合适不过了。

自然，我国在生成式人工智能领域的研究也取得了新的突破。仅仅半年的时间，华为前员工稚晖君（彭志辉）就代表他的新公司智元科技，推出了具有人形机器人属性的「远征A1」以及它的控制系统WorkGPT，这使得他们成为了我国首个利用生成式人工智能技术支持的人形机器人。这个迅速的进展在很大程度上要归功于开源模型的应用，其中，WorkGPT中的语言模型就是通过开源模型的优化而得到的。另外，本周，字节跳动也开始对其类似ChatGPT的产品进行了测试，包括「豆包」和「小宁」等。

在探讨当前人工智能行业的最新发展时，我们无法忽视一个显著的现象，即各大公司纷纷在其现有业务基础上取得了进展，但同时，一些最早在市场上商业化的人工智能产品也遭遇了困境。以生成式AI领域的两大先驱产品为例，ChatGPT的流量连续两个月下滑，尽管有分析师认为这可能与暑假期间用户需求减少有关，毕竟许多使用ChatGPT的用户是依赖它来完成学业的学生。与此同时，根据数据分析公司的数据，微软旗下的搜索引擎Bing在7月份的市场份额与今年1月刚刚推出时基本持平，用户数量仍然只有Google的1%。

令人困惑的矛盾现象不断出现，生成的AI究竟具备商业价值与否，甚至是否仅仅是短暂的现象，许多人都在思考这些问题。然而，在商学院的教学大纲中，这种疑虑其实是非常正常的。我们目前所处的是「产品-市场匹配」（Product-Market Fit，简称PMF）的困境，也就是说，聊天机器人和搜索引擎并不一定是生成式AI最适合的终端形式。

以下内容为新皮层团队制作，欢迎关注和来信。

Key Points

智能体（Agent）篇

斯坦福AI小镇开源

OpenAI收购游戏制作公司Global Illumination

开源篇

Stability发布聊天机器人Stable Chat

Meta将推出编程AI模型Code Llama，同样会开源

中国公司篇

稚晖君发布人形机器人「远征 A1」和控制系统WorkGPT

字节跳动测试类ChatGPT产品「豆包」「小宁」等

商业篇

ChatGPT流量连续两个月下降

Bing AI没有带动微软搜索市场增长

监管篇

斯坦福AI小镇开源

在8月11日，斯坦福大学和Google研究部门联手推出的AI项目——SmallVille（小镇）正式公布开源。这个创新性的项目构建了一个全由AI居民组成的小镇，堪称微型AI元宇宙的典范。

AI小镇到底长啥样？

SmallVille，一个字面意义指向“小镇”的项目，在今年四月份首次亮相，并在随后的八月进行了修订。该项目由25个AI智能体（agent）构建而成，这些智能体均得到ChatGPT的支持，并各自具有独特的人格特征、职业以及渴望实现的目标。为了满足这些智能体的需求，开发者设计了一套小镇的物理模板，其中包括街道、住宅、家具摆设以及公共区域等元素。在这些模拟环境中，智能体将依据自身的逻辑运行，如在它们发现早餐在燃烧时，会自动关闭炉子；在浴室有人时，它们会选择在外部等候；而在与其他智能体交流时，则会暂停下来展开对话。

《人工智能领域的多元进步与挑战》

小镇格局。

在这场AI社区实验中，智能体们具体完成了什么？

一个更为具体的场景是：一个名为Isabella的智能体计划举办一场情人节派对，并向外传播了这个信息。模拟结束时，有12个角色知道了这件事，其中7个AI「犹豫不决」，3 个AI表示「已有其他计划」，4个AI没有表露想法。这些表现和人类的表现几乎一致。

《人工智能领域的多元进步与挑战》

一个叫John Lin的AI的早晨是这样度过的

最终，Isabella的情人节派对顺利举办，总共5个AI参加了这场派对，原本答应来的AI也有的「放了鸽子」，理由是「太忙，没顾上」。60岁的Tom在被邀请时就拒绝了，因为相较于参加派对，他更加关心选举，拒绝Isabella的邀请时他还顺便问了问Isabella对选举的看法。

游戏业或将受重大影响

看上去，斯坦福AI小镇有点像游戏《模拟人生》的简化版，但其实很不一样。原来电子游戏中虚拟角色（NPC）的对话脚本基本都在事先就已写定，它们几乎没有后天自由发挥的空间。而斯坦福小镇中的角色对话则由大语言模型（Large Language Models, LLMs）生成，不需要事先确定。这些AI角色在拥有自主性的同时还能彼此互动，一起完成任务。

这种模式有望极大增强电子游戏中NPC的真实感，也有助于大幅降低相关的开发成本。开发者可以把更多精力放到游戏角色的策划上，而原来需要人工撰写的大量对话文案则有望逐步用AI来取代。这种模式甚至已经被用来开发简单的游戏。新皮层曾报道，今年7月，清华大学就有个名为「ChatDev」的项目，他们「雇佣」了几个AI建立了一家游戏公司，其中的AI CEO、AI工程师和AI项目经理一起合作，最终成功开发一款五子棋游戏。

参考链接：

https://github.com/joonspk-research/generative_agents

OpenAI收购游戏制作公司Global Illumination

8月16日，OpenAI宣布已收购初创公司Global Illumination，目前该公司整个团队已加入OpenAI，参与包括ChatGPT在内的核心产品的开发。

Global Illumination是什么公司？

Global Illumination成立于2021年，专注于开发与在线游戏制作相关的开源技术，团队仅有8人，来自Facebook、Instagram、YouTube、Google等公司，其中，首席执行官Thomas Dimson曾任Instagram工程总监。

目前，该公司唯一的产品是基于Web的沙盒类大型多人在线角色扮演游戏Biomes，被称为开源版《我的世界》，玩家只需要打开浏览器，就可以建造、觅食、玩小游戏以及参与更多活动。游戏使用AI技术，根据玩家的行为和喜好，生成并调整地形、植被、动物、天气等。

《人工智能领域的多元进步与挑战》

Biomes游戏界面

为什么收购这家公司？

这是OpenAI首次公开收购，交易的条款尚未透露。不过，OpenAI收购Global Illumination可能意在智能体（Agent）的研发。

沙盒游戏（Sandbox Game）是一种电子游戏类型，它在游戏中提供了开放式的、自由度高的世界，让玩家可以在其中自由探索、创造和互动，而不受严格的预设目标限制。这种游戏类型得名于儿童在沙箱中玩耍时的自由创造性。

这种游戏相当于为AI提供了一个开放性的训练场景，有利于收集大量人机交互数据，在完成复杂任务时帮助构建更先进的GPT。

智能体与普通聊天机器人（比如ChatGPT）的区别就在于，其具有更强的推理能力，能够将复杂任务拆解成多个小任务，然后调用相应软件、数据或者其他AI模型的API接口，逐一完成这些小任务，从而整体上完成一个复杂任务。

相较而言，目前的ChatGPT无论在拆解复杂任务，还是将为小任务生成代码去调用其他程序的能力上，都准确性不足。更强大的基础模型——比如GPT-5可能有助于解决这一问题，但仅仅基于语言训练可能不足以使其推理能力到达这一点——玩点游戏可能更有帮助。

微软此前也在积极收购游戏公司动视暴雪。

智能体（Agent）正在成为生成式AI领域的新热点

新皮层曾报道过的AI小镇（SmallVille），它由斯坦福大学和Google研究部门联合开发，以及美国人工智能初创公司Simulation用多个人工智能重拍的连续剧《南方公园》（South Park）、清华大学NLP实验室孙茂松教授带队用10多个聊天机器人开发的五子棋小游戏，都相当于将生成式AI训练成一个个可以独立决策的智能体，相互合作共同完成一项任务。

不过，这些项目中都有不少的工程师介入，并非完全交给AI去决策，也就是说它们距离真正的agent还有些距离。

沙盒游戏Biomes体验链接：

https://www.biomes.gg/

参考链接：

https://openai.com/blog/openai-acquires-global-illumination

开源篇

Stability发布聊天机器人Stable Chat

8月13日，Stability.ai在官网推出了类ChatGPT的对话式生成式AI产品——Stable Chat，基于开源大语言模型StableBeluga开发。

Stable Chat支持中文、多轮连续问答，国内可直接访问。

Stability不止有文生图模型，还有语言模型

Stability最为人熟知的就是其文生图模型Stable Diffusion，这一扩散模型是现有文生图模式的主流模式。不过最近，这家公司也在努力扩充其产品类型。

7月21日，Stability在Huggingface社区上开源了大语言模型Stable Beluga 1和Stable Beluga 2。

两个模型分别基于Meta的两代开源模型微调，其中，Stable Beluga 1基于Meta 650亿参数的一代模型Llama；Stable Beluga 2基于Meta 700亿参数的二代模型Llama 2。两代Stable Beluga使用的训练数据相同。

目前，Stable Beluga 2在Huggingface的下载量超过55万。

Stable Chat响应速度很快

大模型由于其计算速度限制常常反应速度缓慢，Stable Chat则能快速响应用户提问，1秒就能重新生成内容。

此外，基于Llama开发意味着，Llama具备的推理、数学解答、生成创意文本、文本翻译、提取摘要、知识问答等功能，Stable Chat同样具备。

参考链接：

https://www.geeky-gadgets.com/stability-ai-stable-chat-model-featured-at-defcon31/

论文地址：

https://arxiv.org/pdf/2304.03442.pdf

Meta将推出编程AI模型Code Llama，同样会开源

据The Information 8月18日消息，Meta计划推出帮助开发人员自动生成代码的开源软件，其模型名为Code Llama，基于开源大语言模型Llama 2，该模型最快将在下周发布，并计划开源。

今年5月初，Meta已在内部推出一个AI辅助代码生成模型CodeCompose，其功能与GitHub的Copilot类似。目前尚不清楚Code Llama是否与CodeCompose有关。加上之前推出的Llama和Llama 2两代大语言模型，Meta已经推出了至少3个开源模型。

中国公司篇

稚晖君发布人形机器人「远征 A1」和控制系统WorkGPT

8月18日，稚晖君的创业公司发布了第一款产品人形机器人「远征 A1」。

稚晖君是谁？

稚晖君本名彭志辉，毕业于电子科技大学，他2020年加入「华为天才少年计划」，负责华为昇腾计算产品线的全栈研发。此前，彭志辉就职于OPPO研究院AI实验室，任算法工程师。

去年12月27日，彭志辉发帖表示将离开华为，投身机器人创业项目。

《人工智能领域的多元进步与挑战》

「远征 A1」长这样。

今年2月27日，智元机器人关联公司上海智元新创技术有限公司成立，彭志辉参与创立。这家公司的业务时发展通用人形机器人和具身智能。公司成立三个月后便完成了第三轮融资，估值超10亿美元，成为独角兽公司。李彦宏旗下三亚百川致新私募股权投资基金、鼎晖、经纬、高榕等均有参投。

「远征A1」的硬件

远征A1是一个人形机器人，其身高175cm，重53kg，最高步速可以达到7km/h。此外，它可以承重80kg，单臂最大负载5kg，相当于可以用一只手臂举起一袋常规体积的面粉。

《人工智能领域的多元进步与挑战》

特斯拉的「擎天柱」长这样。

远征A1是一款面向工业制造领域的产品。目前常见的机器人，比如小米的人形机器人「CyberOne」，只有21个自由度，但远征A1全身有49个自由度，可以完成汽车生产过程中整理线束、拧螺丝、总装等任务。并且，机器人的全身可以模块化组装，比如把机械手换成螺丝刀，或者把腿变成轮式。

《人工智能领域的多元进步与挑战》

小米的「CyberOne」长这样——你分清楚了吗？

彭志辉称，远征A1的硬件系统基本由公司自主研发。比如功率高、不需要传感器、价格低的关节PowerFlow，它可以帮助机器人膝关节向后弯曲，从而更高效地完成任务。再比如指尖安装传感器、有12个主动自由度、5个被动自由度的机械手SkillHand。

「远征A1」的软件

「远征A1」基于的模型被称为「WorkGPT」。这是一个囊括了多个模型在内的智能体模型，其内部包括一个类似ChatGPT的语言模型、一个视觉控制模型以及其他用于本体控制、感知等在内的模型。其中，视觉控制模型为智元自研，语言模型来自对百亿参数开源模型的调优，能过为机器人提供理解任务、编排动作的能力，它相当于机器人的大脑——你可以不用告诉机器人什么是垃圾，它就能自己分辨出来。

《人工智能领域的多元进步与挑战》

WorkGPT不止要Chat，还要Work。

发布会上，彭志辉表示，希望将整机成本控制在20万元以内，并将以此为基础推出第一代商用产品。

除人形机器人之外，智元机器人还做什么？

EI-Brain具身智脑框架：该框架中的机器人系统被分为不同层级，包括部署在云端的超脑，部署在端侧的大脑、小脑以及脑干，其中，「大脑」负责抽象思考与多位推理，「小脑」控制运动指令生成，「脑干」负责电机控制等底层硬件。这套系统可以连接云端以实现复杂任务调度，电机控制等任务则可以在本地完成。

动作库平台：该平台用于离线轨迹优化。

未来还将搭建一个开放平台：包含整个机器人的开发套件、一些预训练大模型，以及为开发者提供资金奖励和合作机会。

参考链接：

https://mp.weixin.qq.com/s/cgfbJgl9enzGXGTb6q6FGA

字节跳动测试类ChatGPT产品「豆包」「小宁」等

8月18日，字节跳动大模型对话产品「豆包」开放测试，用户可通过网页或者下载 App体验。

「豆包」是什么？

「豆包」是字节跳动研发的大模型对话产品，具备自然语言处理、知识回答、语言翻译、文本摘要、情感分析等功能，其训练数据截至2023年。「豆包」还处于早期开发验证阶段，目前只是小范围的邀请制测试。在展示案例中，「豆包」可以生成健身计划、心理学书籍、奇幻小说开头等。

《人工智能领域的多元进步与挑战》

「豆包」的问答表现。

除聊天机器人「豆包」外，同一测试页面还出现了其他各种AI助手，包括「英语学习助手」「全能写作助手」「超爱聊天的小宁」等。其中「全能写作助手」主要负责生成电影评价、视频脚本、诗歌或歌词；而「小宁」则更侧重聊天。

这个路线类似于Meta，后者也曾计划推出一系列不同性格的机器人。

《人工智能领域的多元进步与挑战》

字节家最爱的产品矩阵。

字节跳动的大模型进程

今年2月，字节跳动已经在大模型上有所布局，聚焦语言和图像两种模态，其中语言大模型团队在今年组建，由字节搜索部门负责；图片大模型团队则由产品研发与工程架构部下属的智能创作团队负责，均向Tik Tok产品技术负责人朱文佳汇报。不过在当时，虽然技术中台有所探索，但还处于初期阶段。

今年3月，阿里达摩院AI大模型M6的前主要负责人杨红霞加入字节跳动AI lab，参与语言生成大模型的研发，向字节跳动副总裁杨震原汇报。

4月11日，飞书宣布将推出AI助手「My AI」，可以自动生成会议纪要、撰写报告、润色文本，用户还可以通过与其对话，创建日程、搜索公司内部知识库；

4月18日，字节跳动旗下的云计算平台「火山引擎」推出大模型服务平台「火山方舟」，引入百川智能、IDEA研究院、MiniMax、智谱AI等人工智能公司的大模型。

「豆包」测试链接：

https://www.doubao.com/

商业篇

ChatGPT流量连续两个月下降

据数据分析公司Similarweb披露，今年6月和7月，ChatGPT的流量连续两个月下跌，6月环比下降9.7%，7月又下降9.6%。

学生放假可能是主要原因

由于ChatGPT去年11月才推出，目前尚无去年同期数据可用来对比。Similarweb推测，流量连续下跌可能与暑假有关。之前教育服务公司Chegg曾承认，原本使用其作业辅助系统的学生正在流失，转而使用ChatGPT完成作业。随着夏季学期结束，学生用户短期内会有明显流失。6月，Chegg的流量同比下降28.3%，幅度远超ChatGPT的环比降幅（9.7%）。

根据Similarweb的统计模型，ChatGPT 28.6%的用户是18岁至24岁之间的青年人，仅次于占比33.6%的25岁至34岁年龄段。

由于Similarweb的统计仅涉及网页版ChatGPT，不涉及API调用，因此也有观点认为，随着接入其API的应用越来越多，更多访问ChatGPT的流量被API调用分流。

印度市场不降反升

7月，使用ChatGPT的主要国家中，除印度外访问量全部大跌。比如访问量最高、占ChatGPT访问总量12.85%的美国，访问量环比下降3.5%。访问量居第三第四位的日本和巴西，访问量环比分别下降8.7%和11.7%。但访问量居第二位的印度环比上升了2.1%，占ChatGPT总访问量的比重达到8.5%。

参考链接：

https://www.similarweb.com/website/chat.openai.com/#overview

https://www.similarweb.com/blog/insights/ai-news/chatgpt-schools-out/

Bing AI没有带动微软搜索市场增长

据《华尔街日报》8月18日报道，分析公司StatCounter和Similarweb最新报告显示，7月，微软旗下的搜索引擎Bing占据搜索市场的份额仅为3%，且月度用户量仅为Google的1%，这与1月搭载ChatGPT的Bing AI推出前情况基本一致。生成式AI对微软搜索引擎市场份额提升看起来没有太多帮助。

微软对分析公司的数据提出异议

微软称，第三方研究人员没有统计对Bing聊天的所有访问。

今年2月，微软在推出Bing AI时，公司高管在与分析师的电话会议上表示：「搜索广告市场的份额每增加1个百分点，我们的广告业务就有望增加20亿美元的收入。」

不过，搜索业务一直都不是微软的核心业务

虽然微软的广告业务主要来自Bing，但其占总收入的比例不到6%。7月末公布的2023财年第四财季业绩报告中，包括Office 365软件在内的生产力和业务流程营收同比增长10%，但被视作未来业绩增长引擎的Azure云业务增速放缓，这一轮AI热潮也没有给云业务带来显著的增长。

参考链接：

https://www.wsj.com/tech/ai/microsoft-bing-search-artificial-intelligence-google-competition-6e51ec04

人工智能, 生成式AI, 模型, 开源