《文心一言：挑战AI极限，探索科技新境界》

文心一言2yrs ago (2024)update lida

120 0 0

文章主题：

原标题：文心一言，站在奥林匹亚

在1932年7月的第10届洛杉矶奥运会 registration 环节中，一支由仅仅几名成员组成的队伍成功完成注册，并克服了种种困难，如无尽的辗转波折和漫长的海上漂泊，最终踏上了奥运赛场。这些勇敢的运动员，来自遥远的东方国度——中国。

走进竞技赛场，每一次参与都代表着无数的付出与努力。至今，我国已在奥运会的舞台上走过长达90个春秋。我曾向文心一言请教，关于我国在奥运会上的收获有哪些？经过仔细梳理，文心一言从金牌、奖牌、成绩、以及覆盖项目这四个方面进行了全面的概括，最后得出这样的结论：“中国代表团在夏季奥运会上取得了令人瞩目的成就，金牌数量和奖牌总数均位列全球前茅，而在多个项目上更是实现了历史性的突破。”

《文心一言：挑战AI极限，探索科技新境界》

在3月16日这个特殊的日子里，当我们有幸见证百度文心一言的世界首秀时，我的内心深处涌现出一句话：代表着我国AI技术的崛起，终于站上了奥运会这类全球性竞技舞台的巅峰。

我们为何对文心一言充满期待？这既源于对技术革命的热情，也 driven by our desire for productivity growth. However, more importantly, it is our deep concern and anxiety about whether China’s technology sector will be able to actively participate in this round of technological revolution.

文心一言究竟做到了吗？

我们第一时间拿到了文心一言的测试资格，就让我们从最真实的产品表现出发，回溯这条参赛之路。

站在赛场

我深信，没有人会质疑近期风靡一时的大语言模型的价值仅限于问答环节。然而，它所触发的广泛科技创新及其深远影响是无法估量的，远超其本身的基础价值。

自2012年深度学习技术逐渐成熟，并在2016年因数据集测试表现优异以及AlphaGo的成功宣传，AI领域迎来了第三次繁荣发展。进入2018年，预训练大模型开始涌现，经过多年的发展，ChatGPT等应用借助于大型语言模型的力量，成功引爆技术能量，这无疑标志着AI复兴的2.0时代的来临，成为當之无愧的時代焦點。

当前，竞赛的旅程尚未开始。若能在竞争的初期便参与其中，我国AI将有机会参与竞争规则的设定，从而在发展过程中掌握主动权。这将为我国经济和社会的需求创造出一个符合战略周期的优势。

那么，文心一言拿到这张宝贵的“参赛券”了吗？

在3月16日的新闻发布会上，百度公司的首席执行官李彦宏向各位来宾展示了他们最新研发的知识增强大语言模型——文心一言，展示了它在文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成等五个应用场景中的综合能力。然而，人们更加期待的是，除了展示出强大的技术实力，文心一言在实际应用中的表现又是如何呢？

当晚，我们就拿到了文心一言的测试资格，对其进行了全方位“拷打”。话不多说，直接上文心一言与ChatGPT的对比，全程无修改无打码。我们选取了大家最关心的，也是应用度最高的几方面问题进行测试。需要提前说明的是，生成式AI的答案每次都会不同，因此我们的测试结果不一定与其他媒体或用户完全一致。

1.数理逻辑能力

能够理解数理逻辑，回答复杂问题，一直被视作是ChatGPT的最大特色。那么在这方面文心一言能力是否可观呢？我们请出了中国人最熟悉的数理逻辑问题——小学奥数，来为大家解答。以一道非常经典的行程问题为例，文心一言的答案是这样的：

《文心一言：挑战AI极限，探索科技新境界》

可以看到，答题过程虽然简略，但核心计算过程是非常清晰的，并且答案准确无误，到这里可能效果还没有拉满，那我们不妨看看ChatGPT同一个问题的答案：

《文心一言：挑战AI极限，探索科技新境界》

嗯，解题过程非常华丽，但最终结果似乎是欺负我没上过小学。事实上，直到如今ChatGPT依旧有大量类似问题，可以概括为“一本正经地胡说八道”。结果经常出错这件事，对于生成式AI的可信度、可用度其实是大打折扣的。相比来说，文心一言显然在逻辑与中文的理解上不落下风。

2.中国文化理解

我们知道，对比一家美国公司的AI模型中国文化理解能力，似乎有失偏颇。但对于中国开发者和用户来说，AI对中国文化和语言的理解就是核心诉求，这点是毫无疑问的。那么，在这个领域上文心一言 vs ChatGPT会有怎样的表现呢？

先来看一个关于唐诗的问题吧。关于李白和王维的艺术风格，ChatGPT是这样回答的：

《文心一言：挑战AI极限，探索科技新境界》

而同样的问题，文心一言的答案则是这样的：

《文心一言：挑战AI极限，探索科技新境界》

虽然ChatGPT的回答也很不错，但显然对于李白“诗仙”、王维“诗佛”这个最重要的艺术内核根本没有涉及。无论是知识科普还是专业回答，ChatGPT的答案显然都不能得到高分，而文心一言的回答则更加全面细致，且总结归纳能力更强。

我们再来问一个明清小说的问题，关于《红楼梦》的情节，ChatGPT是这样答的：

《文心一言：挑战AI极限，探索科技新境界》

而文心一言的答案，似乎从逻辑调理上就与ChatGPT完全不同：

《文心一言：挑战AI极限，探索科技新境界》

这就又不得不吐槽了。ChatGPT回答的不是“主要情节”，而是“包含哪些内容”。相反，文心一言则确实梳理了主线情节的条理，并且给出了主线与副线关系的理解。在此基础上，对《红楼梦》的内涵做出了具有深度的解析。

对比下来，ChatGPT明显又犯了答非所问的毛病。但不管怎么说，两个AI对于中国文化瑰宝的理解，似乎都值得我们大多数人羡慕和学习。

3.最新信息查询

对于我们大多数人而言，都肯定是希望AI问答能够帮助我们了解世界最近发生的事情，了解那些最新的消息和动态。但ChatGPT即使在升级GPT-4之后，依旧采用了到2021年为止的数据，这也是其广受诟病的一个问题。那么，文心一言能不能接入最新、最近的信息呢？

我最近一直没时间追番，于是问了问文心一言《名侦探柯南》的最新情节：

《文心一言：挑战AI极限，探索科技新境界》

为了确定这就是最新剧情，我又问了这是哪一期：

《文心一言：挑战AI极限，探索科技新境界》

可如果同一个问题问ChatGPT，会得到怎样的答案呢？

《文心一言：挑战AI极限，探索科技新境界》

好吧，它委婉的告诉我，想知道就滚去自己看……显然，获取最新的知识、新闻、动态，也构成了文心一言的独特优势。

4.多模态生成

这一点，目前还是文心一言的专属能力，ChatGPT并不具备生成图片的功能。可能有人会认为以文生图有专门的模型。但不可否认的是，合并到同一个问题系统中，带给用户的便捷性是十分明显的。既然ChatGPT还没有类似能力，那我们就让文心一言生成一张图片，结束我们的测试部分：

《文心一言：挑战AI极限，探索科技新境界》

可以看到，无论对刺客信条还是钢铁侠的理解，文心一言都是能够找到“那个味”的。

至此，我们可以坦然且真诚地说：文心一言或许并不完美，在很多地方与ChatGPT互有短长。但真的有自己的技术优势，更加实用，更加理解中国语言与文化，也更符合中国用户的需求。

文心一言，真的拿到了大语言模型的决赛资格。

水到渠成的参赛之路

那么我们不禁要问，这背后的原因是什么？为什么又是百度抓住了这个至关重要的战略机遇？这里面有什么运气或者玄机吗？答案或许非常简单，仅仅有“水到渠成”四个字。

《文心一言：挑战AI极限，探索科技新境界》

百度CTO王海峰认为：“做文心一言不是头脑发热，是十余年的技术积累和产业实践的水到渠成，我们在人工智能四层的技术架构上都有很深的积累，尤其是框架层和模型层联合优化发挥了非常大的作用。”

就像芯片是生长在数学、光电与制造业基础上的。文心一言所代表的大语言模型能力，是生长在AI技术积累，尤其是大模型与深度学习框架之上的。

从2019年开始，百度就发布了文心大模型ERNIE 1.0。四年时间，已经从最初的自然语言理解大模型，发展成了跨语言、跨模态、跨任务、跨行业的能力完备的大模型平台。在框架方面，百度早在2016年就正式对外开源PaddlePaddle（飞桨），飞桨有效支撑了大模型的灵活开发、高效训练和推理部署，成为了文心一言诞生的底座。

文心一言另一方面的基础来自于数据和知识，百度在搜索引擎端的庞大数据积累、数据精细化处理，以及知识图谱的搭建，最终成为了文心一言的养料。正所谓你看见的是台上一分钟，看不到的是台下十年功，因为百度预判到了全球AI的预判，每一步都在做正确的事，最终才能实现又快、又好锻造出了文心一言。

如果我们把文心一言背后的技术能力进行打开、分解，就可以清晰看到“水到渠成”是如何实现的。

首先，文心一言就像ChatGPT一样，吸收了大语言模型业界公认的领先实现手段。比如有监督的模型精调，确保模型的高鲁棒性和吸收数据能力；类似人类反馈机制的的强化学习，可以实现模型基于用户反馈持续进化，实现“智能涌动”效果；融合不同类型的数据、知识，构造丰富的提示，生成高质量的结果。

这些能力保证了文心一言能够区别于传统的多轮对话模型，满足用户对新型大语言模型的期待，而百度独特的技术才是文心一言焕发技术创新力的核心。

这个领域的技术，主要包括三个维度：

首先是知识增强。知识增强是文心系列大模型的核心技术特征，也自然而然集成到了文心一言当中。即通过引入知识图谱，“知识增强”的方法，将数据与知识融合，使得文心大模型相较于其他模型，学习效率更高、可解释性更好。在文心一言能够实现“知识增强”的背后，是百度构建了包含5500亿事实的全球最大知识图谱，从这里我们也可以看到文心一言与文心系列大模型紧密的关系与一致的技术序列。百度在大模型领域的积累，最终在文心一言完成了厚积薄发。

其次是检索增强。文心一言并入了百度在搜索引擎方面的能力与技术，百度新一代搜索架构已经发展到了基于语义理解和匹配，其中文心大模型分别理解用户输入和文档，形成双塔模型，然后基于理解进行匹配。这让文心一言可以准确获得高时效性的内容，填补了ChatGPT目前为止还无法实现的空白。同时，检索增强也可以优化大模型的推理能力，使它的回答更加精确、有效。

此外，文心一言还加入了百度长期积累的对话增强能力。从而使得大模型具有上下文理解、多轮对话等能力，增强对话的连贯性、合理性。

全球领先的技术范式，需要我们有能力去学习和了解；自身储备的核心技术能力，则可以在关键时刻构筑差异化。二者结合，中国AI才有出路。文心一言背后的技术序列，为中国AI究竟如何发展点亮了方向。

另一方面，文心一言能够在如此快速的时间内完成训练、部署，最终为中国AI抢得了先机，不得不提到背后的开发基座——飞桨。

在框架层，飞桨是百度自主研发的中国首个开源开放的产业级深度学习平台，包括核心框架、产业级模型库、开发套件、工具组件，以及学习和实训社区，能够标准化、自动化地支撑模型生产和应用。在飞桨的配合下，文心一言才能够有效实现大量最新技术的融合，同时在如此短的时间内完成开发、落地。

从中可以看到，百度已经筑造了飞桨+文心，即深度学习开发平台+大模型的产业路径。二者结合，企业和开发者可以获得从算力、框架、模型库，再到大模型调用、大模型行业化的所有能力，得到了完善、稳固的产业智能化基座。

文心一言精、快、好落地的今天，就是更多中国大模型脱颖而出的明天。

中国故事，刚刚开始

大语言模型崛起，乃至更宏大的AI复兴与新一轮科技革命，在文心一言的证明下，应该可以说上一句：中国故事，才刚刚开始而已。

我们知道大语言模型的应用化，可以带来非常多的产业发展可能。其中包括但不限于引领搜索、办公、客服、内容创作等领域的变革；为更多未知应用提供底座，甚至形成用户的超级智能助手。而大模型与行业的融合，则可能带来千行百业的生产力革新。

这些产业可能性的基础，必然是中国具备与全球顶尖水平对齐的AI能力，不能留下短板，不能受制于人。

就像AlphaGO的价值不仅在棋盘上，ChatGPT的价值不仅在问答中。文心一言的价值也不仅仅在百度的业务范畴内，不仅仅是满足一次“中国能不能做大语言模型”的好奇——它的价值在更远的地方。

《文心一言：挑战AI极限，探索科技新境界》