经济学家朱民和科学家张亚勤最新对话畅谈ChatGPT精彩万字全文

AIGC与创业7mos agoupdate lida
100 0 0

经济学家朱民和科学家张亚勤最新对话畅谈ChatGPT精彩万字全文

4月28日下午消息,清华大学智能产业研究院院长、中国工程院外籍院士张亚勤在与清华大学国家金融研究院院长、著名经济学家朱民进行对话,本文根据对话实录生成,由新经济学家智库【公众号:New Economist】整理首发,未经演讲者确认,仅供参考。

朱民:很高兴我们到清华论坛,今天有幸请亚勤,我们也有一种不见了,疫情的原因。

张亚勤:已经是三年多了,咱们上次还是2019年的夏天。

朱民:我今天看你这个研究院是起来了,你是一个真的科学家,然后你有60多项专利,也写了600多篇的不同的学术论文,所以你又是科学家,你又是企业家,你还在百度做过总裁,也是在第一线实际的去管运营,还得管科研,是那么三年多前你回到了清华,又重新从事教学和科研相结合,这是一个我觉得你的人生经历是很精彩。

朱民:(问现场观众)你们知道张亚勤是几岁考入大学的吗?

朱民:12岁,厉害吧。这个是了不得的人物,今天走到这一圈,我觉得真的很精彩。现在我们来到你的智能产业研究院,我们先谈谈你的研究院三年了,你现在做的怎么样,你的主要在做些什么?

张亚勤:好,首先感谢大家今天下午来到清华大学智能产业院,我代表研究院欢迎大家。朱民是我多少年的好朋友,是良师益友。我们很早在很多场合,包括在达沃斯,朱民也是达沃斯的常务董事。我所以今天特别高兴,咱们俩也能聊天。

朱民:主要是听你的。

张亚勤:朱民尽管是全球金融界、经济界的领军人物,同时的话对高科技特别人工智能发展的话也特别的关注,而且很敏锐,而且也是专家。

朱民:你这个是反客为主。

张亚勤:2019年底的时候我离开百度,然后其实一直在想做这么一个研究院,研究院的话和当年20多年前微软亚洲研究院在某些方面相似,都是从事这个基础研究。但是这个研究要为产业去服务,就解决真正的问题。那么另外一点的话,当时那个时候是给一个企业做的,那么现在我们希望是面向整个产业是更开放的。还有一点在清华,有清华最优秀的学生,然后有这个老师,所以当时我们就成立这种研究院。所以AIR二这个名字也很简单,就是AI for industry research。这里I的话有三个含义,就一个是international,一个是AI,一个就是说industry

所以我们现在这儿有差不多21位全职的老师,然后还有博士生、博士后研究人员,还有学生差不多,现在看的这周和下面可能差不多200多人,当年我们在19年的时候,我们在见面的时候还是个概念,什么都没有。所以确实是很高兴。

目前就研究院的主要的研究还是人工智能。那么人工智能我们面向产业,所以我们选择了我们认为是有很大机遇的三个方向,一个是机器人和自动驾驶,一个是生命科学生物科学,另外是物联网,特别是面向双碳,这个叫绿色计算这个领域。

朱民:最新的突破在哪里?

张亚勤:我们一直从事这些算法,包括模型方面的研究,我们和很多企业合作,在这种语言模型,比如多模态、强化学习、联邦学习,然后也做一些垂直模型,比如说面向自动驾驶机器人的,面向生命科学的。刚刚前几天还开源了一个生物医疗的GPT,叫BioMap,然后我们在自动驾驶方面也有一个基础决策感知这么一个模型。

朱民:所以你的研究也是和现在崛起的ChatGPT和GPT大模型其实趋势是一致的。我们就聊聊大模型,这是现在最热的事儿。ChatGPT当然是惊艳,真是惊艳,他一出来以后又能画画,又能作诗、写歌。可能大家听了它做了一个贝多芬的音乐,当然作为一个老贝多芬的爱好者,我觉得它做的不怎么样,但它居然也是装模装样的,装模作样地做作曲了,还有4个乐章,那搞得太搞笑了,但是确实是影响很大,还能写代码做文件检索当然说很好的,那么争论很多,有观点认为它已经走向AGI,也有观点认为它还是很不成熟,并没有很大技术上好像也没有特别大的突破,它只是商业模式用的好,它的路径好,它很聪明,你是真的专家,你怎么看这件事?

张亚勤:你刚才讲的是过去这2~3年,一个大的趋势就是生成式AI,那么这个生成式AI,包括当然ChatGPT可能做的最成功,也包括比如像DALL-E,像stable diffusion,就一系列的生成式AI。

ChatGPT推出之后对我震撼还是挺大的。前段时间谈到我的GPT时刻是什么样的,所以我有三个想法,看了之后,第一个我感到就是人类历史上第一次我们有了一个智能体,然后通过了图灵测试。

朱民:通过了图灵测试,我们回头回到这一点,这个是个了不得的结论。通过了。

张亚勤:对,图灵测试,咱们知道是图灵1950年提出的,机器可以thinking,就叫这个理解,就可以思考的机器,然后提出图灵测试,大家在座都知道。

那么其实图灵测试是我们做计算机科学这么多年大家都梦想的一个目标,我觉得这是第一次,过去也有人说达到了,但是ChatGPT我认为是第一个软件智能体通过了图灵测试,当时我在看的时候,我太太她是ChatGPT或者GPT这些产品系列的大粉丝了,然后她说ChatGPT也幻想,也经常说错话,然后也会说谎,我说这个和人更像了,更分不出这个和人的区别了。

所以我觉得第一点还是通过了统一测试,包括语言对话的引擎,说conversational AI,其实对话引擎也很多年历史了,1966年第一个也就是MIT就做出了一个对话的引擎ELIZA,这么多年有很多次迭代,到了Siri,到了 Alex,到了Cortana,然后国内有小度,有天猫精灵,有很多对话的产品,那么都是针对某一些领域或者聊聊天,或者某些领域。

朱民:包括微软的小冰。

张亚勤:包括小冰,都是过去的对话引擎的这么一些产品。真的就是ChatGPT是完全在它的功能方面,在它的通用性方面远远超过了早期的产品,它就用了大规模Generative AI,所以这是我第一个感受。

第二个感受,我认为它是我们在AI时代的一个新的操作系统,就像在PC时代Windows,在移动时代iOS,它是一个新的操作系统,一会我们可以再展开讲。

朱民:我觉得这个比你的第一个结论更重要,因为过了图灵测试,这是过去,如果是新操作系统的话,那是一个巨大的未来。

张亚勤:就会重写、重塑、重建整个生态系统。

朱民:你第二点感受已经打开了一个阿里巴巴的大门,这可是个了不得的结论,先听你说完。

张亚勤:第三点咱们原来也讨论过,我认为它是我们从面向具体任务的人工智能到走向通用人工智能的一个起点。

当然也可以讲ChatGPT,更多是大语言模型,更多的是叫大基础模型,就开启了一个亮光。因为我们多少年也在往那个方向走,所以这是我的三个当时的观察,我的ChatGPT瞬间。

我经常在AIR我跟我们的这些学生老师来讲,就说我们这么多年在不管人工智能也好,或者整个IT领域有好多热词,一儿Blockchain,Crypto,Bitcoin,一会儿Web3.0,NFT, metaverse,很多东西。

但有些可能是真的,有些可能是这个概念,但整个大语言模型,包括 ChatGPT,GPT4.0,包括这个是一个大的变革。

朱民:所以这次是真的让你兴奋了,这还是很不容易的,让一个科学家兴奋就表明something is happening。

所以这个还是挺有意思,图灵测试过了,因为机器和人对话,当然还有很多误差,它会撒谎等等,因为它是token system,这个都是不断的完善,并且通过人类的反馈机制训练,我觉得Fine-tuning都会不断提高,这个没问题。

张亚勤:你们听朱民讲,他在讲算法,他完全不像是央行的副行长。

朱民:这个是跟你学的,这跟你学的。但是你大操作平台可有意思了,因为现在比如说ChatGPT现在开始出现了API,是吧?然后出现了这个插件,所以它逐渐地就可以把专业的东西给放进去,垂直系统,然后现在出现了plugins,plugins出来又是一个特殊的路,然后很多东西又可以往上放。

所以如果这个以后变成一个生态的话,真的是一个大的操作平台,然后就会出现一个我们以前讨论过的superapp,整个的产业就被根本颠覆了,这个在什么情景下?多远会发生呢?

张亚勤:其实尽管目前有这么多的一些新的这个插件也好,API也好,或者是新的这些应用也好,有些本质其实并没有变化,如果大家都记得在PC时代上面有本身也有很多应用, Office就是一个大的超级应用,到移动时代的话,有的操作系统上面有应用商店,然后上面有很多超级应用,微信也好,短视频也好,淘宝也好,搜索也好,都是上面的超级应用。

现在我觉得到了AI时代也很像,有一个大模型做一个操作系统,你这些plugin也好,包括这些 API,然后在上面你就可以有APP,会有很多的APP可能需要有一些垂直的这些模型,因为有些行业它比较深,比如自动驾驶,自动驾驶很多地方还是需要有垂直的这么一个技术模型,然后像生物计算,它可能需要一个垂直模型,但这些垂直模型它可以建立在横向的大语言,这个大语言它不仅仅是语言,其实是多模态的,也包括视频,包括图像,语音这也是多模态的模型。但有了这个之后,你的垂直模型也好,包括你刚才讲的,它都有更多的应用。

你刚才提到一个很重要的是,现在大语言模型,或者是我们的基础模型,它自己是个工具,它也可以使用别的工具,它可以去使用比如说Hugging Face各种开源的这些数据、模型,然后去执行新的任务或者构建新的应用。

但是同样还有一点的话,我们也可以用不同的大模型,然后去构建新的应用,就是大模型可以使用你,你也可以使用大模型,都可以互相使用。

所以其实也是以后研究的一个方向,我们刘洋教授,刘洋院长,他就是在做模型和模型之间怎么互动,然后我们另外一个小刘洋,这两个都叫刘洋,女老师刘洋,是做联邦学习的,就是在模型上面有知识,知识上面怎么样去学习,所以我觉得我们已经做了很多很基础的这些研究。

朱民:以后想象中的世界,因为智能了,机器就自己讲话了,它已经脱离人了,就一旦你给了数据,机器自己生成,生成完又出现智能,然后它就可以自己交流,自行不断地改进,那是不是一种新的物种正在出现?

张亚勤:可以这么理解。

朱民:又是一个很重要的概念,我们理解的物种都是我们看电影的外星人跑来的是吧?如果把人工智能大模型看成一个物种的话,那就是现在大家有很多讨论的问题了,就人类面临的根本挑战了,是这样吗?

张亚勤:首先是一种新的能力吧,叫物种也好,能力也好,比如说现在 GPT4plus,然后马上有4.5也好,4.9也好,5.0也好,这里面比如说5.0主要的开发者是谁呢?是4.0,所以它自我在开发,自我在迭代,自我在进化,所以这是一种和人类一样,是个很强的能力。

但是我并不认为人类会被替代,我觉得还是我们的一个工具,是我们的延伸,就人类有这样的一个智慧,我们碳基生命有这样的一个智慧,我们可以发明东西,我们也可以去控制它,让它按照我们这个方向去演化。我是乐观者。

朱民:对,你是个乐观者,我听说了,我也是个乐观者,我很高兴两个乐观者在一起,最怕的是过分乐观,我们要小心。这其实有很有意思的一件事,我们先不讲人类和机器的对比,现有的人其实提出了哲学命题,或者提出了一个根本的问题,就是人工智能是人的智能的一部分,还是人的智能之外的,一种新的或者人不知道的人还没有悟到的智能,怎么看?

张亚勤:这是一个特别好的问题。我认为现在的大语言模型,其实它的很多智能是我们不知道的,我们可能有,但是我们没有认识到的,因为我们所认识到的知识,我们所看到的所谓的智能,其实是我们人类的很少一部分。然后这机器一方面,它把那一部分我们有的但不知道的,把它找出来了。另外它可能会有新的能力,但新能力我不希望大家就有一种想法,说像科幻电影会把人替代了。未来的智能一定是Human Intelligence,一定是人类的智能和机器智能的一个融合,而且机器它一定是我们一个很强的延伸,它很多事做了我们可能做不了。就像汽车一样的,汽车跑得比人快,它比人要有更强的能力,但它并没有替代人。

朱民:工业革命是扩展了人的肌肉,现在是人工智能要扩展人的智能。所以我觉得是一个很大的判断,现在关于机器智能究竟是人的智能的发现,还是一种人的潜在不知道的智能的挖掘出现,或者是更新的一个我们根本就不知道的智能,所以你认为是?

张亚勤:我觉得三者都有。

朱民:这个很有意思,所以从这意义上来说,根本的一个fundamental的哲学问题就是说,智能不只是人类独有的。

张亚勤:是的。比如说什么东西也很智能呢,看你怎么定义,一种定义智能的或者一个方面,是生存的能力、繁殖的能力,其实繁殖能力很强的物种,最强的不是人,是Bacteria细菌,是virus病毒,你像Coronavirus那么小的一个病毒,可以给我们造成这么大的麻烦困惑,对吧?

而且都是billion years,就是上几十亿年就存在,而且它的寿命一定会比我们人类要长,所以我觉得我们智能有很多不同的维度,不同的方面,那么现在发展到现在,给我们提供了很多的新的一些启示,包括就是延伸我们。

我再讲一下,就是说我们可能还是要把智能分成几个不同的层次,然后有些东西我们要有边界。

这个又回到我们图灵了,还是机器第一个层次是感知,就是我要听得见,我要能说话。就是视觉、语音识别、语音合成、人脸识别,图像识别,包括文字OCR都属于这种感知层面的方面,现在机器比人已经厉害了,机器识别人脸比人可能厉害,我觉得这个可能5年前基本上就和人是同样一个水平了。

第二层次智能的话是可以思考,可以决策,可以推理,在这个认知层面,现在的大语言模型出来之后,和人的距离就差的越来越少,过几年在这个方面和人类可能差不多。现在大家看到说ChatGPT考试比人还厉害,还考SAT现在,然后两个星期前,我的一个朋友在北大教量子力学,量子学是很难的,她期中考试已经高于班里的50%,它也没有经过任何专门的学习。所以说这个的话机器在认知方面也会和人类差不多。

然后另外还有几个层次,我觉得是我们不应该去触碰的,我一直在讲我们做AI的伦理也好,治理也好,比如说它的个体能不能作为独立个体?人工智能它有没有自我意识?它有没有感情?这些方面我不认为我们可以达到,但是我也不认为我们人类应该做这样的研究,就像基因编辑某些这个方面我们不应该去触碰。

另外当然就是人工智能的治理,就人工智能需要一个边界。边界就是咱们有信息社会,咱们有物理世界,然后我们有生物世界。在这些世界,其实这些空间在走向一种融合,新的数字化走向融合,都是数字的融合,但是我们需要有一些边界,比如ChatGPT可能先把它放到信息世界里面,然后如果真正去到了物理世界,自动驾驶我们可能要小心点,需要一个边界,包括金融系统。我刚在新加坡开个银行的顾问会,我就跟他们讲,我在两个不同的场合,一个是叫WPP是做这个广告策划,做这种creative创造,我就鼓励多用ChatGPT这样东西,在银行那边我觉得你先别用,你可以用作为信息类的,但是牵涉到核心金融系统,这个账号的transaction based还是要比较小心。

朱民:所以科学家的乐观和谨慎,我们可以看到。从乐观的方面,毫无疑问这是个颠覆,这是个突破,但从谨慎的方面,我们还是要很小心的划一个边界,在我们不知道的情况下,我们先谨慎,我觉得这个还是很有意思的。

但这个边界是会被不断地突破的。原因你刚才讲了一个特别重要的这个概念,就是工程应用,人工智能现在越来越多的被认为是一种工程学,你可以应用大模型,大模型也可以应用你的这个东西,所以它越来越变成一个工程了。

如果从工程学这个角度看大模型的话,大模型的发展会怎么样?

张亚勤:我觉得它肯定是会变得越来越准确,然后变得越来越成熟,这肯定的,而且它进化的速度会越来越快,但是在我们没有很清楚它的成熟度,我们需要把它划边界。

我相信对我们以后整个物理世界,比如说机器人自动驾驶,对于物联网都会有很大的应用,但是我觉得根据你的需要不一样,应用不一样,更要谨慎一些。

比如叫mission critical,核心的任务,我们还是要有更多的可控性,因为现在确实生成式AI,它生成什么东西我们并不完全知道,而且不仅我们不完全知道,我们甚至不知道为什么会发生这样的事。我们知道一部分,并不是完全黑盒,只是有很多我们不知道。

朱民:所以这又涉及到我们现在大模型的根本的概念,emergence「涌现」,这个是以前没有的。因为它开始有数据逻辑推演以后,它开始「涌现」一些非线性的发展。这个「涌现」怎么讲?它未来的发展前景怎么样?我觉得这是一个很重要的问题。

张亚勤:刚才朱民行长讲了一个特别重要的概念,这个都是比较专业的词汇,叫做「涌现」emergence。

emergence确实目前是在这种大模型里面,当模型的参数体量大到一定程度的时候,基本上是到了百亿参数的时候,开始「涌现」,就是你可以看到它在准确度还是可预测性都跳跃式提高。

为什么在这个时候出现「涌现」,具体这些数学模型或者这种因果关系,现在并不是完全很清楚。

但你可以这样想,当我的数据量体量大到一定程度的时候,参数到一定程度时候,而且我的训练方法是正确的,这个很重要,数据是好数据、高质量数据,我训练的方式是正确的,可以利用这么多数据,有好的方法时候。

如果用一个拟人化的来比喻,我们每天读书,读到一定的时候忽然就开窍了,灵光一闪,我就开始知道一开始可能有的时候读的书只是填补这个知识,但到一定程度之后我就可以掌握了这个规律。

就是比如我建的大模型,参与到一定程度之后,它把真正的Structure找出来。

朱民:这里又提出一个重大的哲学问题,因为如果「涌现」是比如说像灵光一闪,像这样的跳跃式的这个变化是吧?在我们人的经历上,我们都讲有顿悟,在禅宗上,南禅北禅大家不一样。但是讲顿悟,顿悟是有点智慧的含义的,但是「涌现」是智慧吗?

张亚勤:你可以这样理解,如果拟人的话。但其实它就是参数到一定程度之后,然后它就变得忽然就很准确了,就像语音识别,贯通了,其实就这么一件事儿。

然后这个很重要,如果你直接看的话,由于我数据量特别大,参数很多,因为它做预训练的时候用的是这个叫自监督学习,然后它自己是In-context learning,在它这个语料很大的时候,它要把里面一些mask出去,然后自己去训练自己,所以模型大到一定程度时候,它准确率就比较高。

但是为什么会在那么多参数的时候会这样,而且不仅仅ChatGPT,很多别的大的模型,不仅是openAI的,很多别的模型也有类似的这么一些现象了。

所以这个现象我不能讲是这个灵光一闪,是哲学或者宗教的概念,但是我们现在并不清楚为什么,清楚一部分,但不清楚全部。所以这个是emergence.

然后包括另外一个是统一性,这也是现在GPT里面T很重要一部分。过去可能对不同的任务有不同的算法,现在有了transformer之后,不管你是语言也好,还是语音也好,还是图像或者是视频或者是蛋白质,你都可以用token based里的token转化。这跟人的大脑思维方式比较像,我们的neural,都是neural。

朱民:所以我们现在又往里走一步,现在如果回到深层的方法上面来看的话,你还记得吧?两三年前都有一种议论,就是说 deep learning is dead,就是说深度学习已经不行了,是吧?

张亚勤:我没有听到。

朱民:但是有很多这样的说法,就是觉得深度学习,大数据的应用开始出现了小数据,大概四五年以前是吧?那么现在的新的工具transformer这个是一个foundation对吧?这个是一个很重要的基本的结构。GCAI或者AIGC是一个很重要的approach,那么这个技术上来说,你觉得transformer模式成型了?还是以后会有怎么样的发展?因为你是科学家,咱们得想一想科学的问题。

张亚勤:第一个我认为transformer确实是挺了不起的,当时2017年Vaswani在Google,当时一开始是为了其实在做 Google translate来做的这么一个算法,这个算法出现之后,确实是把整个深度学习的进展推到更高的一个层次,但是如果我们看一下transformer或者看一下包括现在大模型,其实它的效率还是比较低的。

我们再和大脑比一下,我们人的大脑经过几十万年的进化,确实不得了,差不多不到三斤的大脑,然后有860多亿个神经元,每个神经元差不多有1万个Synapse突触,你如果把每个连接做一个相当于参数的话,我们大脑比现在GPT4,我假定是1万亿,比它要高上千倍。我们就三斤重,而且我们功耗30瓦,你这GPT功耗多少瓦,所以我觉得我们效率还是很高的,而且目前这种大模型,现在当然在让很多的工作变得更高效,目前大模型还是耗费电力也好,运算的效率还是很差的,transformer当然是很好的一种算法,但是确实在计算方面十分耗能。

朱民:所以从能耗来说还会有很大的突破的空间

张亚勤:我认为5年之后也许就会有一个不同的算法。

朱民:怎么叫不同的算法。

张亚勤:就也许就不是transformer算法,也许是,也许不是。

朱民:你会发明一个吗?

张亚勤:我希望,我们这儿很多,我自己希望寄托在我们的博士生。

朱民:我们大家鼓掌,为亚勤5年后发明一种新的超过transformer的算法好不好?

张亚勤:这个是我们的研究生,也希望是在中国。

朱民:我今天回去先放一瓶好酒,放到5年后喝,我觉得我们有两个刘洋,我们见者有份,见者有份,一瓶就不够了。

回到工程学,工程学就很有意思了,因为它等于一个辅助工具,它无所不能了。所以我看我觉得现在比较有意思的一件,就是说大模型用我的语言来说,我是今年1月份的时候我做了演讲,我说是叫脱虚向实,所谓虚就它离开了服务业,实它进入物理世界,它去探讨物理世界,它去操纵和管理物理世界。

我觉得这个是作为一个工程学的,其实是一个很重要的概念和一个很重要的应用场景。

所以现在我们出现了AI for science,而且现在科学研究进入了第四范式的Fourth Paradigm是吧?那么就把整个科学研究的方法全部变掉了,是数据主导,不再是独立的由根开始往上走,而是逆向发展,那么这个就很厉害了。

那么最近的很多事,比如说常温超导,这个卤是算出来的,最近的可控核聚变,可控是大模型控的。蛋白质,现在我们已经有了那么多三维的蛋白质的结构分析,你也做生命是吧?大模型在科学研究方式的方面,对它将来会怎么样。

张亚勤:这是特别好的问题,我稍微花半分钟讲一下范式这个定义,其实提出第四范式,包括最近还提到第五范式,这个都是微软的科学家提出来的。范式从最早在亚里士多德。然后后面到了伽利略,然后是观测。那么牛顿是第一次把所谓的第一范式数学化方程式化,包括到Maxwell,包括薛定谔,爱因斯坦后面是方程式的第二范式。

第三范式是计算机出来之后,是computational science,是一种计算科学。后面大数据来之后是data driven,Jim Green我们一个图灵奖获得者,他提出data driven,第四范式。

最近微软英国的科学家又提出说我们第五范式就是深度学习,作为科研的一个新范式,其实我认为第四和第五基本上是不同阶段,你可以都叫第四范式。

这里面有很多新的一些工具,就刚才你所讲的现在工程学,新的工具可以使用,可以使用很重要一点就是我们可以把我们方程式的东西,结合到我们观察的,测量的数据里面来。

比如我们现在可以生成我们的大数据,用方程式来生成,加上我们观测的数据把它结合起来,开始预训练,然后结合起来,所以这样的话可以把我们掌握的一些知识和我们要观测的掌握的未知的或者看到的,没有办法把它这个方程式化的,这些大量的数据把它融合起来,那么这样会大幅度加快我们科学的发现,同时的话就是我们的实验科学和我们的理论科学又可以无缝的连在一块,因为我们实验现在可以有实验机器人去做实验了,设计实验本身的实验的流程,包括实验的结果和干实验能无缝的融合起来,这个的话会加速科学的发现最新的一个范式。包括像比如说蛋白质解析,现在更新的这种蛋白质怎么生成的,合成新的蛋白新的材料,然后新的新药研发,这也是我们在AIR做的很多新的一个研究。

朱民:是对现在在科学研究上就是第四范式也好,我们走向来说是实际上来说其实它出现了两种流的合作,一个是人的流,他把一些观察到想象中的参数什么放进去,一个是数据位自由,就机器深度学习,然后让这两种东西结合起来,是朝我们想象中的用预训练的模式来实现它的未来,所以这个是个很有意思人工智能和人的智能开始合作,那么现在看的比较多的是材料科学,数字材料现在是很明显,生物对蛋白,做 three dimensional structure这个也是很多的,但是这个会在根本上把物理我觉得化学是很容易突破的,物理或者数学像这种根本的科学研究,你觉得会有根本的在方法论上的颠覆吗?

张亚勤:我认为会的,但是怎么颠覆我也不是很清楚。

我那天开玩笑其实也不应该开玩笑,我就说在我比较保守了,我说5年的话,我们所有的这些奥林匹克的冠军,数学、物理包括所有的考试,这些冠军一定是机器,从阿尔法go线一定是机器。然后另外一点,我认为AI可以证明一些我们没有证明的事儿,哥德巴赫猜想等。我觉得它会解决一些我们解决问题。

朱民:我不知道会解决问题,我觉得科学家还是很严谨的,哲学家可以这一个任天空思索还是很有意思。

张亚勤:对新的方程式以后可能是领导 AI发明的,这都有可能。

朱民:量子力学就会可能会有很大的突破,所以这个是一个很大的事情。如果科学这么大这么变化的话,那么反过来就是说我们人类的发展和进化的速度会大大加强,5年是很乐观的,5年很快大家想想你到这也3年了,你说是吧?这5年真的是一个很短的。

张亚勤:刚才你问的特别好,就是科学的范式。

其实如果看一下我们物理学,每一个科学它需要一种描述的语言。数学是物理学最好的一个描述的语言,然后其实我觉得我们比如说这个蛋白质,也许因为蛋白质你没有办法用数学公式来数学公式表示,可能阿尔法for二也许是特别好的一个描述他的语言,而且我认为AI整个来讲,从我们这种发展的方向,这不一定是GPT,也不一定是甚至不一定是整个案,我觉得也是一个科学一个好的描述的语言。当你科学的这些东西没法去表示出来的时候,我就用一个大的模型加上一个参数去表示它,然后它就变成一种新的语言。

朱民:讲到现在其实我们已经走得很远了,天马行空,那么落地到现在的话,大家很关心的问题是中国的大模型发展怎么样?现在百度出了文心一言,现在我看能列出的大模型大概有几十种了。

张亚勤:百模大战。

朱民:当然困难是很明显的,第一个美国把芯片卡住了,是吧?那么算法当然也受到很大的影响,数据的话它也有一个质量和规模的问题,对语言也是个问题。对中文和英文之间其实还是在自然语言处理的方面还是有不一样的。那么你怎么看百魔大战中国的差距究竟有多大?我们怎么干?

张亚勤:不想得罪人,我觉得。(现场笑声)

朱民:科学家没问题的。我先给你说我的观点,我不怕得罪人(现场笑声),我1月7号的时候我在说大模型,我说中国落后两年到模型上。

张亚勤:对,我觉得大模型这方面肯定是落后的,具体落后多少我就不说了,但是目前这么多企业,包括大企业bat、华为头条字节,然后包括很多公司都在做大语言模型,包括一些新创的公司都在做,我觉得大家都做。这个东西最后就是充分竞争,之后充分竞争的产品和企业才是好企业。而且中国竞争。是中国特点,而且竞争的时候,这些人如果看都是经过互联网,经过了互联网千锤百炼,经过这种血腥的竞争,知道怎么竞争。第二点就是在竞争的过程中,每个企业自己这些人都很聪明,他自己会定位的去让市场去检验它,政府就别管了,政府就鼓励去竞争。

然后这里面当然如果我个人看的话,可能最后会有五六个大模型,所有的操作系统,大部分的话可能还是面向这个行业的垂直模型,垂直模型对,而且有很多垂直模型,他结合大模型给他更多的能力解决他很多的问题,但是在每个行业可能需要对细分,

然后你刚才讲芯片和数据的问题,对我稍微讲一下。数据是问题也不是问题,就第一点你看目前大模型也没有人把充分把自己的数据都用了,以及比如企业外面我们有很多这种公用的数据,然后每个企业刚才我讲的大企业都有自己好多数据,他都没有用完,可能用了很少一部分,因为时间不够,这几个月。然后第二点就是你看现在做多模态,刚才讲的语言多模态里面多少视频的数据,多少这些图像的数据也都去使用。

还有一点。你看GPT用了很多中文的数据,用了很多法文的很多各种不懂语言的数据,咱们也可以用别的语言,我们完全可以用英文的数据对吧?

这些数据能用就用,我觉得所以我认为长期不是大问题,不是大问题,短期也不是大问题,都不是大问题。而且说实话数据不仅量要大,重要的是你怎么样去清洗它,怎么样把它变成高质量的这些数据,其实做大语言模型也很有意思,就是这个数据太轻,太干净也不行,还是需要一些有免疫力的,就像人身上需要一点有要和细菌和病毒共存的时候需要一点免疫力,所以怎么样去获得这个数据,其实是做大语言模型,1/3的工作是关于怎么样把这些数据叫data engineering很重要。

算力的确是比较挑战,如果咱们把中国所有的算力加在一块,现在至少也有50万个,至少50万个 A100的这么一个体量加在一块,我和他们一块,这个不是政府数据,我们自己估算了一下。

就差不多有50万,你训练100个模型有点小问题,但是训练5个模型是没问题的,对吧?另外一点,这个东西你也不是永远在用它,你在预训练的时候用它,用了之后你几个月可能就不需要用这个东西了,它并不是永远在用这个东西。

还有一点,现在很多的工作是怎么样把这个模型简化,然后怎么样小型化边缘化。我们刘云新教授有专门的别人是因为模型越来越大,它是模型越来越小。所以我认为这些东西是有挑战,但是不能作为说我们的两年三年之后打模型没做好是个是个借口对吧?我认为我们一定会做的不错的。

然后还有一点就是中国自己也在做芯片,也在做芯片,现在你看到有这个昆仑,汽车的地平线,然后好多公司都在做这些芯片,阿里在做平头哥也在做芯片,昆仑当时我在百度的时候,我们当时自己做芯片,其实当时主要为搜索了,但也是为了AI是AI芯片。

朱民:所以你还是乐观的,算力算法和这个数据,我们还是有资源可以解决,是吧?但是大模型它有几个特点,第一个是它进入的门槛很高,它不是一个可以自由竞争的世界,是第二个它有些地方具有天然的垄断性,算是有垄断性的,算法取决于你是不是开源是吧?而且这个规模也使得进去不那么容易。所以在这个情况下,那是一种市场充分竞争,还是一种类似于寡头竞争,就是用我经济学的语言来说,这样的发展未来的中国发展大模型的路径大概是个什么情况?

张亚勤:我认为现在大模型比喻一下42公里的马拉松在跑了第五公里,所以目前是春秋战国大家要充分竞争,竞争到一定程度之后,肯定就有几个不可能有那么多大模型,就像操作系统,就像云一样的,云的话一开始多少朵云?现在的云不管在美国也好,在中国也好,最后就可能就四五朵云。所以我认为最后他肯定是要收敛的。

朱民:你还是乐观,中国人会长出自己的大脑模型一定会有成功的。

张亚勤:对。但是我就是想讲一点的,我们现在不能假设那几个大公司的事儿,这些初创公司也有希望,我们要相信出就是每一个在这个平台在颠覆改变的时候。openai就是小公司。所以我觉得大家都有机会。但是平台门槛是很高,你比如说学校像我们研究院,我们一开始就说我们不要自己去做这种大型的语言模型,我们也不会去买上万个 GPU,然后里面很多工程东西我们也不会去做,我们可以和企业去合作。

朱民:这个就提出了一个很重要的在我们追赶的道路上,第一个是算力算法数据,你有没有底气?第二个是市场准入竞争公平,这个结果会怎么样?但是形成生态合作共赢还是很重要的。那么这个生态你看大概会是怎么样的一个生态呢?

张亚勤:生态比如说 N年多之后,4年5年之后会有几个大的模型,就是可能主要在云上面,在云上面有大量算力的,有这么横向的,我把它叫做AI的云的操作系统,在这个上面有很多的vertical很大的一些apps,而且我认为有些apps会在一个云上一些APP在很多云上,有些souper apps可能它会调用不同的models的,刚才你讲的工程化和工具化,你可以用你的操作系统可以用别的,别的APP,我也可以用我这个APP也可以用好多不同的模型,然后可以用open source模型,也可以用这些商业化的模型,还有一个open source,现在这是很重要一个力量,不在我们刚才讲的这些里面。

朱民:你看现在美国出现了 stability,对这样的一个平台,作为一种生态的构造形式的培训,像这样的模式可采可采用。

张亚勤:我觉得都会各种模式都有不同的模式都会发生。

朱民:这里又回到了平行模型和垂直模型的区别,我看美国现在的模型世界上的大模型现在主要是做美国和中国,对其他国家还是比较。但是美国的模型还是平行的,广义的模型比较多一些,中国现在来看的还是垂直模型比较多一些。

张亚勤:不能这么讲,我觉得都有对横向的模型很多了,但是解决某一些问题的也都有垂直模型。

朱民:所以现在是市场竞争的是横向模型,现在是百魔大战,对竞争的结果活下来的人会支撑垂直模型。

张亚勤:对,可以这样讲,垂直模型总是要做的,面向一些任务总是要做的。横向的模型的话会帮你解决很多横向的一些问题,横向一些问题,包括比如说自动驾驶长尾的问题都可以帮助你,但是它啥没法去替代垂直模型,就咱们再回到操作系统这个比喻,操作系统里面安卓和iOS也很强大,它上面有商店,但是很多 Super APP还在上面对吧?

你不可能操作系统做所有的这些上面的这些应用,特别我们如果面向工业互联网,面向这种工业的话,它更细分,然后更加的深度。就像在PC时代,微软微软很强大,微软也只能做个office,上面别的这种纯应用还是要靠生态。我经常讲就是生态操作系统如果算一的话,它整个生态是乘100倍,在上面它的价值是100倍。

朱民:这个世界不可能只有唯一。一定是一个生态的,对各种穿插的,在这个上面又产生更丰富的应用场景等等

张亚勤:而且我觉得对以后垂直领域或者对一些新的创业者其实是件好事。我看了很多言论说大问题出来之后别创业了,都被大公司这个都为他做了,其实我认为不是这样,我觉得恰恰相反的,现在比如做某些面向某些任务的时候,我更容易做了,然后比如说过去我做一个什么事,我自己没数据或者很少,我需要收集数据收集数据,那么现在的话很多这些数据已经被预训练变成模型了,你就去靠那个模型,然后加上你自己这个领域的精准的数据,可能现在目前要做个要做 Supervise,或者加上结合你的自己的模型,然后你可以开发应用出来。

有点像云计算时候,云计算过去创业公司要买一大堆服务器,自己有it的人,有了云之后你就买云服务就行了。你的算力你的存储,你的网络能力按需分配,所以我觉得到了有了这个之后是件好事,但创业公司可能要注意别做的太简单的东西,你太简单,它大模型马上就帮帮你做了是吧?稍微要有一些门槛的。

朱民:创业的门槛高了。

举报/反馈

© Copyright notes

Related posts

No comments

No comments...