title:小米大模型或不搞“ChatGPT”:自研通用语言大模型,而非单独发布类ChatGPT产品

AI与情感2yrs ago (2024)update lida

180 0 0

文章主题：记大模型的重要性，并决定将 AI 作为公司战略核心。;随后，小米 AI 实验室在 2019 年成立，成为小米 AI 战略的核心部门。;实验室主任王斌博士曾担任中科院 NLP 相关研究和开发工作，后加入小米，目前主要负责 AI 实验室。;小米 AI 实验室是小米 AI 战略的核心部门，致力于研发大模型技术。

666ChatGPT办公新姿势，助力做AI时代先行者！

小米大模型，不搞“ ChatGPT ”

ChatGPT 上线半年后，一场大模型追逐战继续在太平洋两岸上演。

一个由OpenAI、微软和英伟达组成的联盟正在太平洋东岸全力冲刺。自今年3月至今，我国科技企业纷纷跟进，包括百度、阿里巴巴、商汤科技和科大讯飞等，它们都推出了类似于ChatGPT的产品。同时，腾讯、华为和京东等公司也公开宣布正在积极布局大型模型领域，以便抓住这个被誉为“比互联网时代还大十倍”的机遇。

” 百模大战 ” 当前，作为国内大型科技企业的小米，却显得格外冷静。

小米创始人雷军表示，公司目前正在努力开发一系列新技术和产品，一旦这些技术得到完善，我们将向公众展示。小米集团的总裁卢伟冰透露，该公司已经组建了一个超过1200人的AI团队，将积极采用大型模型，并将其与业务深度融合。然而，与OpenAI等公司不同，他们不会开发通用的巨大模型。

这些信息都加深了外界的疑问：小米会加入 ” 百模大战 ” 吗？

小米集团的AI实验室主任王斌博士透露，小米将自主研发通用大模型，但不会单独推出类似ChatGPT的产品或仅通过PPT和示例来展示其存在。相反，王斌表示，大模型的研发将最终通过产品得以展现，这意味着小米将投入实际应用而非单纯的概念展示。

本文将介绍小米公司官方发布的最新大模型进展,这也是该公司的首次透露。根据小米公司在今年4月14日的公告,其大模型团队已正式组建,并可以向外界介绍其研究和开发的路线图及进展情况。该团队的领导人为栾剑,并向王斌汇报工作。王斌是一位拥有20多年NLP(自然语言处理)研究及开发经验的科学家,他于2018年加入小米公司,从2019年开始负责该公司AI实验室的工作。AI实验室作为小米AI战略的核心部门,此次发布的成果标志着小米在大模型领域迈出了重要的一步。

小米曾在对话大模型领域小有建树，而在通用预训练语言大模型方面，它堪称少数的理智派。据王斌透露，目前该团队的成员已经超过30人，且扩张速度并不急功近利。这个团队的主要目标是开发通用语言大模型，其第一步目标是实现数百亿参数的基座模型。未来，他们将根据前期爬坡的结果来决定下一步的投入。

在我国，从研发大型人工智能模型到将其成功应用于实际生产环境，仍然面临着诸多挑战。然而，在众多企业中，小米公司具备明显优势，因为它拥有大量已有的大型模型应用场景，如小爱同学、物联网（IoT）、自动驾驶以及机器人等领域。这些丰富多样的应用场景不仅能够推动大型模型的不断优化和发展，同时也有助于提升模型的实用性和适应性。因此，在王斌看来，小米在大型模型应用方面具有巨大潜力，有望在未来实现广泛的应用和推广。

小米不缺场景，但要训练出大模型，数据、算力、人才的积累缺一不可。王斌说，小米在人才上有一定储备，算力和数据量方面的挑战较大。一方面，算力需要克服系统级的挑战，且要做到训练成本可控；另一方面，高质量数据的获得、清洗，都要花费不少时间和成本。

在新一轮 AI 大模型浪潮中，小米 AI 团队为什么不发布 ” 类 ChatGPT 产品 “？小米是怎么判断大模型的技术路线、技术难度的？日前，深燃总编辑贺树龙和小米技术委员会 AI 实验室主任王斌进行了一场对话。以下是核心内容：

小米大模型：团队 30 人，不发 ” 类 ChatGPT”

深燃：4 月 14 日，小米任命栾剑为大模型团队负责人，向你汇报。能否介绍下小米大模型团队是怎么诞生的？

王斌：大模型团队是 4 月份宣布的，但在这之前已经开始运作。

去年 11 月 30 日，OpenAI 发布 ChatGPT 后，我们一堆人快速注册账号，在上面开始玩。ChatGPT 确实很颠覆，我们做了这么多年 AI，它的很多能力超出了我们研发人员的预期。

很快，我们就组织了多个内部大模型交流群，讨论大模型的技术，以及它对机器翻译、人机对话、智能问答、客服会产生哪些颠覆性的影响。早期参加研讨的很多人，后来都成了专职大模型团队的重要成员。

深燃：小米大模型团队会不会来得有点晚？

王斌：对于大模型，我们属于理智派。

在 ChatGPT 诞生之前，小米内部做过大模型相关的研发和应用，主要是预训练＋下游任务监督微调的方式来做人机对话，模型的参数在几十亿级别。当然，这类模型并非现在所说的通用大模型。

我们非常清楚，通用大模型的研发和应用是一个长期的工作，不是早晚的问题。我们是按照自己的时间规划和步骤在走，当时觉得时间点到了，就做了团队发布。

深燃：大模型团队有多少人？有继续扩张的计划吗？

王斌：主力团队目前有 30 多人。我们目前是先按照人才、数据、模型、算力、评测、产品这几个方面去筹备，等到了一定阶段再逐步调整或扩张。

我们目前不会马上扩大人数，比如一下招到 100 人。因为在积累能力爬坡阶段，可能招这么多人都不知道怎么安排，反而是一种浪费。

随着大模型相关信息的不断公开，资本和人才的不断涌入，大模型领域的发展非常快，大家的看法变化也很大。前不久 ChatGPT 刚出来时，大家觉得，实现类似的大模型基本不可能，但是慢慢地，很多人觉得可能性很大，还有一些人认为，不需要那么大规模的模型就可以满足很多产品的需求。大家的投资力度，差异也特别大。有些人可能觉得团队至少要几百人，有些人认为不需要。

深燃：接下来有没有一些阶段性的规划，什么时候对内测试和对外发布？

王斌：跟其他公司不太一样，小米天生带着产品的属性，我相信小米大模型出来的时候，是由产品带着出来。

我们内部有可能会在 Q3 之前测试。不过，这也不是一个必然的节点。

深燃：也就是说，小米不会发布一个类 ChatGPT 产品？

王斌：对，我们不会发布一个 PPT，或者演示一下我们有大模型了。应用场景丰富是我们最大的优势。小米大模型会跟场景结合得更紧密，肯定是围绕产品的节奏去做相应的发布规划。

深燃：除了人力之外，小米做大模型在算力方面的成本大概是多少？

王斌：我们属于中等规模的投入，会视前期爬坡的结果，再决定下一步投入。

我们的基本判断是，适用于小米产品和业务的模型，参数可能在几百亿，会比千亿规模低，用于训练的机器的投入大概是几千万人民币级别。

深燃：之前小米做的几十亿参数级别的模型，现在怎么样了？

王斌：去年发布的 ChatGPT 是大模型的一种，叫通用预训练语言大模型。但大模型本身很早就出现了，大家有不同的路线、做法。

我们较早就开始跟进大模型，当时做的是一个对话专用模型，大概是 28 亿到 30 亿的参数。它是在预训练基座模型的基础上，通过对话数据的微调来实现的，并不是现在的通用大模型，而是专用于人机对话，比如，可以提高小爱同学对话的流畅度、多样性，让它可以聊下去。后来这个模型上线到小爱，进行了小规模上线测试。

所以，小爱同学里已经用到了 AIGC，只不过，我们在产品层面，没有全部使用这个大模型，而是利用传统模型和对话大模型的互补性，将两个混合使用。

小米的通用大模型在落地产品时，很可能也是这种混合模式。传统模型处理得非常好的问题，就交给传统模型。大模型就解决它擅长的问题，例如一些小概率事件或是长尾对话。

现在出来的通用大模型，在对话水平上，明显高于之前的对话专用大模型，所以这部分团队也全都转到通用大模型上了。这个团队跑通过整个对话大模型的训练过程，爬过一些坑，加上数据的积累，有一定优势。

小米大模型：场景占优势，数据是难题

深燃：这段时间以来的技术进展非常迅猛，国内大模型在密集发布，会因为进展慢而焦虑吗？

王斌：我曾经有一段时间比较焦虑，因为老不下场做就会有点慌，你就会想，” 别人怎么进展这么快，一下子就做出来了？” 现在我们下场去做了，也就不焦虑了。

据说，中国现在是 ” 百模大战 “，已经发布了 80 多个大模型，有些提供了内测，有些只是 PPT 发布。有些模型的效果还是不错的，光从发布的水平看，我们现有的自研大模型的水平，看上去也不比很多模型差。但我们不急于做对外发布。第一，对于小米这样的公司来说，没有太大意义。第二，我们还是希望围绕产品，把自研模型做得更好一些，再一同发布。

深燃：你认为国内公司的大模型有机会赶上 OpenAI 吗？差距有多大？他们喜欢用三个月、六个月来形容。

王斌：目前来看，OpenAI 肯定是走得非常靠前的，它投入时间早，在人才、数据、算力、工程、产品等方面都有非常强的积累。从国内的情况看，我感觉目前和 OpenAI 还是有一定差距，有人说是三个月、六个月，也有人说是一年、两年。时间上，真不好说。

因为怎么评价大模型，本身就是个挺难的问题。现在出现了各种大模型的排行榜，但目前都没有得到大家的一致认可。没有真正的评价标准，那么谈三个月、六个月赶上，也就是个拍脑袋的说法。

至于国内有没有可能追上 OpenAI，我早期比较悲观，觉得几乎不可能，但随着各种开源方案、各种团队和资本的涌入，我的判断更乐观一些。我认为，国内有机会跟 OpenAI 缩小距离，去接近甚至在很多场景超过它。

大模型看上去不像芯片有那么高的门槛，通过人才、数据、算力等的不断积累和优化，是有可能不断缩小差距的。

深燃：国内哪些类型的公司搞大模型更有优势？小米的机会在哪里？

王斌：不管大公司还是中小的创业公司，都有各自的生存空间。大模型是一个生态，并非一家独大就能通吃，生态上的所有公司，包括做算力的、做数据的、做应用的，还有真正做大模型的公司，都有各自的机会。

像小米做大模型，有应用场景的优势。我们认为，大模型跟场景的结合会是一个巨大的机会。

因为如果只是发布大模型，没人用，那不一定能通过滚动快速发展起来。而我们可以马上落地到场景，通过不断迭代，在这些场景充分发挥出大模型的威力。

虽然我们目前只整合了一支 30 多人的主力团队，但实际上外围还有非常多的人。整个 AI 实验室，有 NLP 背景且在做具体应用的，就有一百多人，包括知识图谱、机器翻译、人机对话、智能客服、智能问答。他们都是具有大模型基础思维以及相关技术的人员，正在从各自应用的角度推动对大模型的探索。

王斌

深燃：小米在 NLP 研究上的积累，对大模型的价值有多大？

王斌：这在业界存在两种说法。一种说法是，我们这些人可能没活干了，AI 革了自己的命，特别是做 NLP 的人可能就没饭碗了。还有一种说法是，毕竟大模型是从 NLP 干出来的，做 NLP 的人有先天优势。

这两种说法都有一定道理，但毕竟涉及到我的饭碗，我更倾向于后一种说法。

大模型原本在各个领域都有探索，包括视觉、语音、NLP。但为什么是在 NLP 这个领域首先突破，我相信这里面有本质的原因。我理解至少有两点：第一是语言数据的丰富性和易获得性，第二，语言数据背后隐含着非常丰富的反应人类思考过程的知识。

所以我相信，在 NLP 领域有多年积累的人，对大模型的理解和改造能力有一定的先天优势。小米大模型团队的成员，很多原来是做 NLP 方向的。国内做大模型非常不错的几家创业公司，也是从 NLP 领域出来的。

深燃：小米攻克大模型目前的难点有哪些？怎么克服？

王斌：首先我还是想说，大模型本身有非常巨大的挑战。

一项巨大的挑战是技术的不确定性。我们看过一些报道，甚至 OpenAI 团队自己也不十分清楚大模型背后的真正原理，如果再做一次，对是否能够出现同样的 ” 涌现 ” 结果也没有把握。我相信这一点上 OpenAI 讲的是实话，由于技术上有非常大的不确定性，所以有投入不能保证一定能训练出满足预期的大模型。

高质量数据的积累也是一项挑战。大家一般认为，大模型需要极大规模高质量的训练数据。网络上公开得到的数据，质量总体比较差，所以数据的获取、清洗，都是比较大的挑战。

另外的挑战当然是算力。首先，并不是说有这么多卡就能够训出来，怎么能够用好这些卡本身就是一个系统级的挑战。其次，因为在训练过程中可能会犯错，可能钱烧没了，什么都烧不出来，所以要看你有没有能力用可控的成本把大模型训练出来。

实事求是地说，目前数据和算力的挑战还是比较大的，尤其是大规模的高质量数据。经过前面一段时间的爬坡，我们现在基本有把握，只要数据到位，利用现有的算力，我们大概能知道多少天能够训出一个还可以的基座模型。

深燃：现在大模型训练的成本降低了吗？

王斌：一方面，试错的成本比以前低了。因为大模型训练是可能走弯路、会失败的，但是随着各种信息的公开，现在可能能很快找到训练的正确方向。另一方面，很多云计算、芯片等公司，还有很多创业公司，都在提供更低成本的大模型训练和推理服务。随着整个生态进一步发展，我相信训练的成本会不断降低。

大模型怎么影响小米业务？

深燃：能否详细介绍下你负责的小米 AI 实验室？

王斌：在 2016 年 ” 阿尔法狗 ( AlphaGo ) ” 横空出世后，雷总第一时间推动了 AI 团队的建设。AI 实验室于 2016 年正式成立，我从 2019 年开始负责。

原来 AI 实验室隶属于人工智能部。后来人工智能部合并到集团技术委员会，现在 AI 实验室是技术委员会的直属部门。

AI 实验室现在的团队规模在 350 人左右，下属六个方向，分别是机器学习、自然语言处理（NLP）、计算机视觉、声学、语音和知识图谱。

大模型出来后，AI 实验室设立了专职大模型团队，我们现在的重点是语言大模型，但也在关注跨模态大模型。

深燃：卢总（小米集团总裁卢伟冰）说小米 AI 团队目前超过 1200 人。除了 AI 实验室，小米内部还有哪些部门跟 AI强关联？

王斌：AI 实验室之外，还有小爱同学团队，这两个团队都在技术委员会下面。

技术委员会之外，还有很多部门都有比较大的 AI 团队，包括汽车部的自动驾驶部，手机的相机部、软件部，此外，在互联网业务部做的用户增长、广告推荐，都跟 AI 相关。

总之，AI 相关的团队有些在业务部门，有些在技术委员会，总数大概 1200 人，如果再考虑一些小团队，这个数字我个人觉得还更大一些。

深燃：小米 AI 实验室在小米 AI 战略里是什么角色？

王斌：AI 实验室是集团层面的 AI 技术研发和输出部门。通俗地说，我们是面向全公司输出 AI 技术。

我们曾经把 AI 实验室比喻成集团层面 AI 技术的 ” 试验田 ” 和 ” 弹药库 “。因为 AI 发展迅速，AI 实验室会研发一些中长期的前沿技术，围绕小米业务做储备，在集团需要的时候输出 ” 弹药 “。

在 AI 技术层面，我们在公司里肯定是储备最齐全的，在行业里也是非常有实力的。

深燃：小米 AI 实验室有哪些重要的研究成果？

王斌：我们 AI 实验室的理念更强调技术和场景的结合，目前还没有把发表论文当作 OKR。所以，我从中科院（中国科学院）来到小米后，自己感觉最大的成就不是某个单点的技术的进展，而是技术和产品的巧妙融合。

小米是一家 To C 的公司，我们的 AI 能力输出暂时不直接对外输出，而是通过公司的产品输出。我们的成果非常多，包括小米手机中的很多拍照和相册处理算法，小爱同学中涉及的语音、NLP 等算法，小米商城的推荐、搜索、客服系统中的 AI 算法。

我举个例子，我们在手机上开发了离线翻译功能，比如出国后，很多情况下网络没有那么好，这时候打开小米手机的翻译功能，不用走云端，离线状态下，实时性、隐私性和翻译效果都比较好。这个功能的实现和应用都不算容易，我们做了很多很多翻译效果和性能的优化工作。

在小米内部，并不是我们自己的技术，就会优先用，内部技术也要和外部技术去公平去 PK，只有胜出才能活下来，应用到产品。

title:小米大模型或不搞“ChatGPT”:自研通用语言大模型,而非单独发布类ChatGPT产品

深燃：以 ChatGPT 为代表的大模型技术，会对小米的哪些业务带来影响？

王斌：大模型最强的能力，简单来说就是它更理解人，它显然能优化人机交互的方式。小米的小爱同学、手机操作系统 MIUI、汽车的座舱、IoT、机器人，都是应用大模型的典型场景。

深燃：能不能以小爱同学举例说说。

王斌：应用到小爱同学上，能同时做到两件事。一类是让不可能变成可能，相当于有了新的功能。比如，我让小爱制定一个出行计划或者订餐等等。原来的技术能力没有达到，用户稍微换一种说法，它就乱套了。但有了大模型的支持，它对人的话语的理解更深了，这样就可以完成复杂任务，这类应用就有可行性了。

还有一类是对原来功能的增强，相当于锦上添花。因为人类表达的跳跃性、多样性，原来在小爱同学人机交互的过程中，最大的问题就是遇到小概率事件，我们叫 Corner Case，通常会采用保守策略，让小爱说，” 我回答不了 “，” 我还在学习 “。这种托底回答也能把对话进行下去，但体验不好。但大模型技术能把对话进行得更长，而且大幅度提高用户满意度。

深燃：大模型对智能家居的影响大吗？

王斌：按照我的个人理解，大模型至少能在交互能力上，提高智能家居的使用体验。

现在虽然有很多设备号称 ” 智能 “，但表现上经常像 ” 智障 ” 导致使用率不高。比如说，打开空调或者调控空调温度，如果说法跟标准指令不一样，就可能就无法控制 IoT 设备。

但大模型来了以后，对人类语言的理解更深了，很多情况下表达方式各种各样，大模型能把用户的表达翻译成机器能听得懂的指令。这会带动更多人使用智能设备，让整个生态能更快成长起来。

深燃：除了现有业务的提升，还有哪些事情是以前小米做不到，但有了大模型以后有可能去做的？

王斌：我们会让大模型和这些业务做深度的协同，当然，除此之外，我们也在寻找更多可能性。

我们团队写了很多文章在公司内部推广大模型，包括大模型的概念和技术发展，教大家怎么用 ChatGPT 来解决业务问题。雷总已经要求每个部门都要学习大模型，要求大家具有基本的大模型思维，思考怎么跟业务结合。

来源：深燃返回搜狐，查看更多

责任编辑：