文心一言 vs ChatGPT，数据治理专业知识大比拼！

文心一言2yrs ago (2024)update lida

105 0 0

9月1号凌晨，文心一言正式向全社会开放，用户可以在 App Store 和安卓应用商店下载“文心一言APP”或登陆“文心一言官网”体验。而此前则需要排队领取内测资格。官方介绍，文心一言为百度全新一代知识增强大语言模型，能够与人对话互动、回答问题、协助创作，高效便捷地帮助人们获取信息、知识和灵感。

我很想了解文心一言在数据治理领域的水平，同样的数据治理问题，「文心一言」 vs ChatGPT4，二者究竟谁更胜一筹？以点带面，我也很容易推断文心一言在其它专业领域上能达到的水准。这里假设ChatGPT4是基准分100分。

问题1：元数据是什么意思？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，ChatGPT4的回答语言组织符合逻辑，非常具体，而且比较通俗易懂，「文心一言」感觉就是照搬了网上的定义，然后拼凑叜一起，「文心一言」该回合得50分。

问题2：如何跟五岁小孩解释清楚元数据概念？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，「文心一言」和ChatGPT4的回答都是可以接受的，ChatGPT4似乎进化了，它甚至加上了多少个玩具这种抽象元数据，「文心一言」该回合得80分。

问题3：元数据和标签有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，「文心一言」相比ChatGPT4的回答，即元数据是数据的固有属性，标签是用户自定义的元素，用来标记对象，直接点出了两者的本质区别，「文心一言」该回合得120分，我记得ChatGPT4原来也是回答的很好，但这次表现不佳。

问题4：元数据和数据字典有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，ChatGPT4明确指出了元数据和数据字典在用途、适用范围的区别，而「文心一言」只是把各自的定义再说了一遍，没有去进行区别的抽象总结，「文心一言」该回合得70分。

问题5：元数据和数据标准有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，「文心一言」虽然大致知道定义，但显然没有理解标准这个概念，因为它把基础指标和计算指标当成了规范性约束，而指标只是呈现的方式，跟是否标准其实没啥关系，标准其实是非常通俗的知识，「文心一言」在关联及推理能力还有欠缺，而ChatGPT4显然理解透了，从它举出的例子就知道，「文心一言」该回合得50分。

问题6：元数据和元模型有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，「文心一言」只给出了一个定义，依样画葫芦。ChatGPT4显然有了自己的理解，「文心一言」该回合得50分。

问题7：元数据与数据编织有什么关系？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，由于数据编织概念出现的比较晚，ChatGPT4无法回答，强行推理了一下，「文心一言」占了时间优势，给出了一个定义，还是可以的，「文心一言」该回合得130分。

问题8：元数据和主动元数据有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，我都不太满意，大家都只说了表象，而没有点出本质区别，因此差距不大。主动元数据是一种特殊的元数据，指的是在数据生产过程中主动收集和记录的元数据。与之相对的是被动元数据，即在数据使用过程中自动生成的元数据，「文心一言」该回合得90分。

问题9：数据治理与数据管理有什么本质的区别？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

碰到这种问题「文心一言」肯定是懵逼的，我一直在想为啥不拆字呢推理呢，ChatGPT4当它说出“数据治理是“规定应该做什么”，而数据管理是“实际如何做”。数据治理为数据管理提供了框架、指导和标准”这么经典的话时，你还有什么好挑剔的呢？「文心一言」该回合得20分。

问题10：主数据是什么意思？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，两者都给出了定义和例子，算是打平，「文心一言」相对简单一点，「文心一言」该回合得80分。

问题11：主数据有什么特征？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，两者都给出了主数据的三个核心特征，关键性、共享性和持久性，「文心一言」该回合得90分。

问题12：什么是主数据管理？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果明显感觉到「文心一言」的词穷，它大致知道主数据管理的目标，但有具体哪些举措不太清楚，ChatGPT4把你能想到的都列出来了，而且超出预期，比如数据治理和参数数据管理，「文心一言」该回合得60分。

问题13：主数据管理系统与ODS的本质区别

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，ChatGPT4在回答问题是有方法论指导的，非常金字塔结构，善于从多个方面来阐述，尽量覆盖全面，「文心一言」回答问题有点没有章法，想到哪就说到哪，它并不完全理解ODS的目的，「文心一言」该回合得50分。

问题14：数据元是什么？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，ChatGPT4给出的案例非常详实，也容易看懂，「文心一言」虽然也给出了定义，但给出的例子却是错的，「文心一言」该回合得30分。

问题15：数据元和元数据有什么区别？举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

只能说，这个问题超越了「文心一言」的能力，「文心一言」该回合得10分。

问题16：什么是数据架构，举例说明

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

数据架构其实并不是一个非常生僻的概念，但竟然完全超越了「文心一言」的回答能力，「文心一言」该回合得0分。

问题17：企业什么时候开始数据治理比较合适？

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

只能说，这个问题超越了「文心一言」的能力，不仅突然跳出来S2，S4这种莫名其妙的术语，而且文字也没怎么组织，「文心一言」该回合得0分。

问题18：谈一谈数据仓库、大数据平台、数据湖、数据中台的本质区别，尽量简洁，能举例最好

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，「文心一言」其实没在讲区别，而是罗列概念，而且有些自相矛盾，ChatGPT4虽然也是在讲概念，但要注意它讲的各个概念的角度是一致的，你从这些概念的解释可以体会到互相之间的细微差别，最后还有一个总结，我还挺喜欢的，数据仓库侧重集中处理，大数据平台侧重多样化数据的处理，数据湖侧重集中存储，数据中台侧重数据服务。「文心一言」该回合得30分。

问题19：请辨析数据、数据资源、数据资产和数据要素的联系和区别

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从ChatGPT4的回答很容易区分出四者的联系和区别，数据要素构成数据资源，重要的数据资源构成数据资产，所有可用的数据组成了数据资源。数据是这一体系的基础，数据要素是组成部分，数据资源和数据资产是不同粒度的集合。「文心一言」并没有解释清楚数据要素的概念，甚至混淆数据要素和数据资产的区别，「文心一言」该回合得30分。

问题20：数据指标和数据标签有什么本质区别

「文心一言」的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

ChatGPT4的回答：

文心一言 vs ChatGPT，数据治理专业知识大比拼！

从结果可以看出，两者都点出了本质，ChatGPT4更详实明细，「文心一言」该回合得80分。

20个问题问完了，相对于ChatGPT4，「文心一言」的均分为56分。「文心一言」关于专业知识的回答突出一个寡淡，至少90%对于我来讲是没有价值的，ChatGPT4的回答可以用丰富来总结，30%对我来讲有点价值，10%属于增量，5%会神来一笔。10%+5%正好是15%，这是学习的黄金比例。

由点到面，我们可以做个推断，在专业领域，「文心一言」相比ChatGPT4还是有很大的差距，当然在文学，艺术或者历史等等，「文心一言」估计表现要好的多，这个跟中文语料有莫大的关系。

在专业领域，英文世界的语料比中文多太多了，ChatGPT4在回答中文问题时，会把中文转成英文，从而得到更为高质量的结果。想想也是，国内除了知乎和CSDN，还有几个能够免费获取专业知识的网站呢？

无论怎么说，「文心一言」还需要加油！

文心一言 vs ChatGPT，数据治理专业知识大比拼！

文心一言 vs ChatGPT，数据治理专业知识大比拼！模型、算法、数据模型、模型结构到底有什么区别？ChatGPT最强插件Code interpreter实战，业务人员或成数据分析最大赢家！一篇文章搞懂大模型应用框架：LangChain 研究增强分析半个月，似懂非懂，问了ChatGPT十个问题，秒懂！深度解读OpenAI发布的《GPT使用最佳实践指南》中国最容易和最难被GPT所代替的TOP25职业！一文搞懂ChatGPT相关概念和区别：GPT、大模型、AIGC、LLM、Transformer、羊驼、LangChain…..全部文章点击左下角“阅读原文”查看更多精彩文章，后台回复【加群】申请加入万人数据学习社群