突破大模型的技术困境产生了更强的动力第二件事情是2021年底OpenAI发布的DALL-E,它极大地激发了我们对GPT-4和更大规模模型研发的关注和启发,也促
文章标签:清华科技园赛尔大厦, 投资机构, 智谱 AI, B-2 轮融资
采访|杨轩 周鑫雨
文|周鑫雨
编辑|苏建勋
守在清华科技园赛尓大厦的大厅,能撞见许多前来拜访的投资人和 FA。
在今年五月份,王小川的百川智能刚刚迁入位于十七楼的办公空间。而位于二楼和第五楼的办公室则被一家估值超过二十亿美元的大模型公司——智谱华章(简称“智谱AI”)所占据。
相较于其他智能领域的佼佼者,如百川智能的创始人王小川,智谱AI在公众视野中的知名度似乎略显不足。然而,根据36氪独家报道,早在几个月前,美团战投便对智谱AI进行了B轮投资,投资金额高达数亿元,足见其在AI行业内的地位日益稳固。
有投资者表示,目前在投资机构中,只有智谱AI在挑选投资项目。上半年没有获得智谱AI投资的一位投资人透露,甚至王小川自己在2023年初也曾在智谱AI的平台上考察过。这位知情人士进一步解释道,许多创业者都在寻求从智谱AI身上获取成功的经验。
为何看好智谱 AI?
不少圈内人给出的答案都是:自 2019 年成立,智谱 AI 就是 ” 有人、有技术、有客户 ” 的 ” 完成时 ” 企业。
源自清华大学 KEG(知识工程实验室)的智谱 AI,其每一个创始成员都具备丰富的学术背景和成就。以 CEO 张鹏为例,他负责设计和研发跨语言知识图谱系统 XLORE,该系统在国际市场上获得了很高的评价。
智谱 AI CEO 张鹏。图源:智谱 AI
智谱AI与合作伙伴共同研发的超大规模预训练语言模型GLM-130B在2022年斯坦福评测中脱颖而出,成为全球主流大模型中的佼佼者,也是今年亚洲地区唯一入选该评测的模型。这一自研成果不仅提升了智谱AI的品牌知名度,还使其与百度、字节、360、有道等知名企业建立了合作关系,进一步彰显了其在人工智能领域的实力与影响力。
在今年6月的硅谷科技媒体The Information的评估中,智谱AI被列为可能发展成为中国版OpenAI的五家最具潜力企业之一。
不过,成为 ” 中国的 OpenAI”,并非智谱 AI 的目标。
“中国没有自己的预训练模型框架。” 张鹏告诉 36 氪。市面上最主流的三种模型训练路径都出自西方:GPT 来自 OpenAI,BERT 和 T5 都来自谷歌。若是照搬西方的主流路径,意味着中国企业已经失去了先发优势,弯道超车的机会渺茫。
为了挑战西方路径垄断地位,智谱AI推出了一种创新性的方法:通用语言模型(GLM)路径。如果将GPT的原理视为“根据前文完成填空题”,那么GLM的填空方式则是基于前后文的信息进行扩展,从而实现更高的训练效率和更强的场景理解能力。这种新方法有望在理论和实践层面上超越GPT,为人工智能领域带来新的突破。
至今,GLM 的研究已初见成果。在硅谷,智谱 AI 的 GLM 被一些顶级科技企业广泛认可,成为我国大型语言模型的代表。据一位微软的算法工程师透露,GLM 在硅谷的地位日益稳固。
为了更早推动 AGI(通用人工智能)技术,智谱 AI 没有选择推出行业大模型,而是说服行业客户在通用大模型基座上做微调。
” 行业模型本质上是用大模型的壳,重复造了一遍传统算法的轮子。” 张鹏指出行业大模型的局限性,” 我们认为只有一定规模的(通用)大模型,才能实现类人的认知能力涌现。”
带着技术、团队、客户,直接入场
36 氪:智谱 AI 给人的感觉是手里盘的球很多,一边做技术研发,一边做行业落地,还能做一些企业服务。你们是怎么做到的?
张鹏:人工智能本来就是一个综合性学科,如果研究的成果不能很快被应用,它的价值很可能被遗忘。所以在 KEG,我们会把研究和工程放在相对平等的位置上。这个风格也延续到我们出来做公司。
另一个因素是,在大模型时代里,产学研用这件事被极度压缩,表现为周期变短、距离变近。原来像神经网络、CV 等技术从被学界研究出来,到真正落地工业产生实际价值,中间要 2-5 年。但 ChatGPT 模型训练到产品上线,再到有一亿全球用户,可能不超过 1 年。
36 氪:从 2019 年成立,智谱 AI 的商务合作就没断过,当时你们是怎样让商业合作跑起来的?
张鹏:我们有一个和别人不一样的特点,长期有一群工程师和研究员一起工作,所以从成立第一天起,智谱 AI 就是从一个团队开始的。
所以从公司的发展路径上来说,我们是带着技术,带着团队,带着客户和市场直接启动。我们是一边做核心的技术,一边去拓展市场。从第一天开始,我们就有收入。
36 氪:你们实验室的技术对应的客户和市场是什么样的?
张鹏:我们团队早期在学校里做知识工程相关的研究,比如说科技情报分析、数据挖掘,所以服务的客户群体比较广泛,国内的科研机构、科技型企业、互联网企业,甚至包括国际上的顶尖科技企业。
36 氪:团队对转向研究大模型的信心从何而来?
张鹏:说实话,我们也不是一直信心满满,一开始也大胆假设,小心求证。
有一句话叫做 ” 预见未来 “,这和我们一开始主要的研究方向有关,包括数据挖掘、机器学习、算法这些知识工程下面的分支。这个过程中我们可以做科技趋势的分析和对未来的预判。
36 氪:智谱 AI 能预见的是什么?
张鹏:从宏观角度来讲,人工智能技术的发展经历了几个阶段,比如此前到了感知智能的阶段。
我们认为下一代的技术应该是认知智能。认知智能的技术要解决的问题,和上一代的感知智能不太一样,比如多模态需要更大的数据量、更类人智能的能力,以及多任务、多场景的一些通用化的能力等等。
所以公司成立的时候,我们就在研究大模型相关的底层技术,包括算法。2021 年我们就有了自己的成果 GLM,比 GPT-3 稍微晚了一点。
预训练模型的框架,正在被西方垄断
36 氪:你们有没有横向和国内其他团队对比过技术和研究进展?
张鹏:我还不清楚到底应该怎么和别人比(笑)。如果要比的话,我们更愿意跟世界最顶尖水平去比,比如 OpenAI。当然在技术层面上,我们保持开放,和国内其他团队的交流保持得还不错,但我们不会特别从竞争对手的角度去看待问题。
36 氪:硅谷的进展是大模型赛道很重要的一个参照,那边有直接对智谱 AI 的成立产生重要影响的时刻吗?
张鹏:我个人认为有两件事。
第一件是 2020 年 5 月 GPT-3 的发布,直接将预训练模型的参数规模推到 1000 亿以上,模型表现出的智能确实超乎想象。我们在第一时间就开始研究参数量的影响,后来对这事儿有了更深刻的理解后,我们对投入更多资源和精力去做大模型也更加坚定。
第二件事就是 ChatGPT 的发布。其实在 ChatGPT 之前,InstructGPT 和 WebGPT 等技术我们一直有,也预感到基于 GPT-3 这样一个优秀千亿基座的智能应用会迎来爆发。但 ChatGPT 的上线给我们一个明显信号:预训练模型已经到了完全可使用且好用的阶段,是产品化的很好范例。
36 氪:这两件事的具体影响是什么?
张鹏:GPT-3 对我们的影响是坚定了要自研一个稠密的、千亿的、双语的模型。因为当年我们研究完之后也知道,做这样一件事情投入是非常大的,尤其是算力、人才、团队、数据。
2020 年智谱 AI 才成立一年多,但 OpenAI 已经做了两年多,他们的估值远超我们,很多资源也远超我们。所以那时即便联合清华的研究团队,做大模型也是一件有挑战的事,团队经过了激烈的讨论才确定。所以 GPT-3 给了我们信心。
36 氪:团队激烈讨论的重心是什么?
张鹏:那个时候 GLM 还没有完全定型,之前我们用的这些模型,比如 MoE(专家混合模型,在 Transformer 架构的基础上增加了可以处理不同数据的 ” 专家层 “)等方法,虽然也能通过稀疏化的方式把模型参数推到很大,但效果并不太好。
我们内部也在讨论是继续走稀释模型路径,还是做更大的稠密模型。那个时候因为 OpenAI 没有公开很多技术细节,大家也不知道怎么复现,国外像 Meta、BigScience,复现 GPT 都不能算特别成功。所以内部也在讨论,我们该选用什么样的技术路线,然后该怎么做这件事,以及目标是什么。
36 氪:智谱 AI 采用的是 GLM,不是比较主流的 GPT。团队是怎么考虑技术路线问题的?
张鹏:单纯从技术发展上来看,其实早期预训练模型就有几个类型,比如 GPT、BERT 还有 T5,每个训练框架都有适合的某些任务和场景。
在早期,BERT 的效果比 GPT-1 和 GPT-2 更好,直到参数规模更大的 GPT-3 出现。所以,我们做 GLM 的原因,是希望把不同预训练模型的优势组合到一起。
还有一个原因是,中国没有自己的预训练模型框架。无论是 GPT、BERT,还是 T5,都是西方的科学家提出的底层技术,路径是被西方垄断的状态。我们希望打破垄断,所以没有完全复刻 OpenAI 的路径。
36 氪:采用 GLM 是一种冒险的做法,团队是什么时候觉得路线可行?
张鹏:参数规模达到千亿规模的时候,我们突然发现 GLM 对人类输入意图,以及对一些常识或者知识类信息的理解能力,出现了一些意想不到的表现。我最喜欢举的一个例子是:
当你问大模型一个简单的问题:一个婴儿出生的时候,它的头长是身长的 1/4,如果一个婴儿出生的时候身长是 50 厘米,请问它的头长是多少?
这是一个很简单的小学的数理的数学的题目,对吧?
但 GLM 模型给出的答案是非常有意思的,它并没有用简单的 “50 × 1/4” 这种方式来计算,而是用了 “50 ÷ 4″ 来计算。背后的逻辑是,模型理解了 ” 乘以 1/4″ 和 ” 除 4″ 之间在数学上的等价关系。
我从来没有在参数规模小一点的模型上看到这样的现象。
通用大模型,做行业生意
36 氪:之前王慧文提到过,大模型和应用场景要同时做。你们觉得这是现在做大模型最好的方式吗?
张鹏:我觉得这和认知以及团队的基因有关,就是你更擅长干什么。
老王已经成功过,他对很事情有自己的笃信,他觉得一种技术最终是要落地,结合场景产生实际价值的,这样会更快。
这个逻辑我也认同,所以我们也会考虑怎么去做落地,比如到底 To B 还是 To C?我们要不要做 To C?如果做 To C 我们到底做什么样的产品?这些问题最终归结到我们更相信什么和更擅长什么。
36 氪:To B 还是 To C,你们的想法是什么?
张鹏:我们还是比较认同 OpenAI 的路径,To C 有自己的好处,最主要的目的是聚集用户,这是获得用户量和用户数据反馈最直接的通路,团队也基于智谱 AI 自主研发的中英双语对话模型 ChatGLM2,正式上线了首款生成式 AI 助手—— ” 智谱清言 “。To B 更多的是为了市场和最快的收益。
36 氪:在大模型落地的过程中,智谱 AI 最主要的认知是什么?
张鹏:我们的认知可以概括为:不把目标定为 ” 做中国的 ChatGPT”。从成立起我们就认为预训练模型是一项革命性的技术,但它有自己的问题,不能包治百病,可能也不是 AGI 的终极方案。不复制 ChatGPT,会让我们在具体落地过程中和其他团队有一些差异。
36 氪:是怎样的差异?
张鹏:从最早开始我们就定了做通用大模型,没有做所谓的小模型。之前也有企业说不一定需要大模型,小模型也能很好地平衡成本和效果。但我们认为只有一定规模的大模型,才能够实现类人的认知能力的涌现。
其次我们希望拥有解决多场景、多任务甚至跨模态的技术,我们不会把模型局限在具体的任务、场景,甚至垂直的行业里。当然行业大模型也没问题,但是我们认为它可能是阶段性的、时代所需的产物,毕竟需要落地,在使用过程能平衡成本和收益。但最终我们还是得推动 AGI,不能停留在一个阶段性目标上。
36 氪:这会如何影响智谱 AI 落地垂直行业的路径?
张鹏:就算我们做行业落地,用的也是通用大模型,当然中间需要解决的事情会比较多。
36 氪:怎么说服行业客户用通用大模型?
张鹏:我们会和客户拉齐这样一个认知:所谓的行业能力或专业能力,可以在通用基座上用少量数据的微调和深度学习快速获得。
如果客户没法很好利用通用大模型的能力,而是仍然用专用模型解决问题,本质上和传统模式没有区别,可能唯一的区别是行业大模型的成本比之前更高。
但如果客户强调近期收益,或者场景很狭窄,比如只想提升智能客服的问答效果,那用所谓的专业小模型可能就够用了。
所以我们就会把以上的观念同步给客户,如果他们接受通用大模型,那我们就持续合作共创;如果他们说不,我们只需要把当下的业务搞定,那么我们就用符合用户成本预算的方案来解决,比如 Model Instance(为企业提供模型 API 的商业模式)方案。
36 氪:服务客户和项目反过来对学术有怎样的帮助?
张鹏:数据反馈、用户反馈是大家比较了解的最直接的帮助。另外一个帮助是核算收支平衡点,大模型落地的每个行业都还不太一样,这时候就会倒逼我们在技术上做选择:是要更大的模型、更高的成本、更好的效果,还是要去平衡成本,比如出一个中等规模的模型,来满足客户对成本的要求。
36 氪:目前比较好的收支平衡点是?
张鹏:目前来看,不同规模的模型有不同的收支平衡点。
在榜单上超越 ChatGPT,不是真超越
36 氪:智谱 AI 的团队规模感觉在大模型创业公司里并不小。
张鹏:因为我们的团队非常齐全。从数据,到训练集群的运维,再到核心算法的研究,所有的层次都是自己人。
36 氪:做大模型的清华系团队很多,你们交流多吗?大家的路径有差别吗?
张鹏:其实大家的路径都有所差别。我们比较开放,在学术技术上的交流以及产品上的合作都比较开放,大模型不是靠一家独大就能做好的,还是需要开放的生态。我觉得做开源也好、免费也好,这些事情都不是为了商业利益。
36 氪:智谱 AI 也开源了 GLM-130B,开源和商业化会有冲突吗?
张鹏:两件事情不是天生矛盾。开源可以提供一个比较繁荣的社区和生态,社区的活力能保证产品的迭代和创新力。
商业化模型版本则会给有需求的客户提供更好的服务,比如更稳定、安全。所以两者各有优势,也可以互相弥补。
我们很多客户也是开源社区过来的,他们会先用开源版本做简单的学习和体验,尝到了新技术的便利,转头找我们做商业化合作。
36 氪:在通往 AGI 的路上,哪些重要因素能让团队跑得更快?
张鹏:首先要认识到大模型不完美。用行为学的方式,去模拟或者定义人的认知能力,这是大模型给我们带来的一个解决方案。
但就像张䥽院士说的那样,大模型构造的是人脑的 system 1,还要引入另一套机制去实现 system 2,去补完大脑的功能。所以从研究角度还要去做一些努力,并且用大模型的优点弥补缺点。
其次是定义好目标。比如现在大家经常会听到 ” 超越 ChatGPT” 的口号,但是把它拆解开来定义清晰不容易,比如超过 ChatGPT 是追赶它哪方面的能力?是在某一个榜单上超过它吗?上榜就意味着超越吗?
我觉得认知到事情的本质,就能够避免做无所谓的消耗。
欢迎交流!
清华科技园赛尔大厦, 投资机构, 智谱 AI, B-2 轮融资