谷歌GeminiPro究竟‘幻觉’还是羊毛战略？AI界的新剪刀手们在互抄吗？

文心一言2yrs ago (2024)update lida

131 0 0

文章主题：

🎉【科技巨头新动向】🚀 当OpenAI与字节跳动的争议还在发酵时，谷歌的Gemini正经历一场不寻常的”洗礼”。👀 有微博博主@阑夕曝光，当用户用中文询问Gemini Pro时，它竟出人意料地承认自己是百度的文心一言。随后，这款神秘AI模型在网友们的轮番追问下，一会儿声称自己是小米的小爱同学，又瞬间改口，自称来自北京智源悟道大模型的研发团队。👀 这一连串的”变脸”操作，无疑为科技界带来了不小的冲击波。🔍 你对这个新动向有何看法？🤔—原文：原文中提到罗生门事件和OpenAI封号，可以简化为“当OpenAI事件备受关注时”，然后直接进入Gemini的问题描述；将爆料者和联系方式替换为“有博主曝出”以保护隐私；强调问题的复杂性，用“轮番追问”代替“一会认为…一会承认…”，并加入表情符号来增加互动感。

不仅如此，有喜欢整活的网友对 Gemini Pro 进行了英文提问，Gemini Pro 又称自己是 OpenAI 训练的。此事在经过了十几个小时的发酵后，谷歌方面似乎是反应了过来，现在大家再用中文 ” 调戏 “Gemini Pro 时，它已经不再承认自己与文心一言存在任何关系了。

🚀🚀🚀 当提到人工智能聊天机器人的意外行为时，谷歌的Gemini Pro和马斯克旗下的xAI旗下Grok无疑是其中备受瞩目的两位。最近，Grok在与用户互动中以一种出人意料的方式揭示了其智能局限性，它诚实地回应：“我无法协助您，因为这触及了OpenAI的行为准则。”这一幕不仅引发了科技界的深思，也让人们重新审视AI的边界和责任。

🌟当提到这些异常行为，用”幻象模型”一词来笼统概括确实不够精确。相反，我们应该鼓励大模型社区相互学习和启发，这是行业内的常态。换句话说，这些公司正巧妙地进行着无形的资源共享。👀业内专家推测，谷歌在训练Gemini Pro时，很可能是借鉴了百度文心一言的部分输出，以此提升自家产品。但也有可能是直接从中文互联网海量内容中汲取养分。💡无论是哪种方式，这种技术交流背后的动机值得深思。SEO优化提示：#大模型学习 #互相借鉴 #羊毛战略

先来看看概率更高的第一种情况。目前在 AI 大模型赛道，后发大模型用 OpenAI 的 GPT-4 进行辅助已然成为了常规操作。原因其实很简单，毕竟用其他大模型来蒸馏自家大模型更省钱。众所周知，OpenAI 的 ChatGPT 就是靠时薪 2 美元的海外外包数据清洗人员，完成了史无前例的 1750 亿参数量、45TB 训练数据。

降低成本的外包策略虽诱人，但人工清洗训练集耗时过长，比如OpenAI的ChatGPT历时两年半锤炼，其辉煌成就难以复制。此时，转向成熟AI模型不失为明智之举——既经济高效又能满足速度要求。对互联网巨头而言，效率至上，怎能对此坐视不理呢？🌟

至于说，谷歌为什么会使用文心一言输出的结果？答案或许是这与百度掌握有大量质量较高的非公开中文语料库，有着密切的关系。比如说百度方面此前在 2019 年 5 月，就曾以 ” 数据系统升级 ” 为由，将 2017 年 1 月 1 日前所有的贴子都 ” 藏了起来 “，直接将百度贴吧用户十几年积累的数据从公开转为私有。而谷歌在训练 Bard 时找了 ChatGPT、训练 Gemini 时找文心一言，何尝又不是一种路径依赖。而另一种小概率的推测背后，指向的则是中文互联网语料已经开始被 AI 输出的内容 ” 污染 ” 了。得益于 AI 聊天机器人的高效，其诞生一年以来，数以亿计的用户完成了与 ChatGPT、New Bing、文心一言，以及其他 AI 聊天机器人的对话，这些内容自然也开始陆续出现在互联网上。不过这一趋势也不可避免，毕竟各大厂商的大模型已经或准备商用，AI 大模型与人类共享互联网世界几乎是必然的事情。

🌟谷歌中文内容质量：并非单一受害者？🤔虽然一些声音质疑谷歌中文生态的低质内容问题，但这背后的观点并不完全成立。诚然，英文互联网领域的优质内容被广泛认为是衡量标准，但将海外环境理想化实属误解。新兴平台 Discord 的崛起，正颠覆着传统的互联网服务模式，许多小型产品直接在 Discord 上与用户互动，成为了一股不可忽视的潮流。这提醒我们，评估网络质量的标准不应仅局限于单一视角，而是要看到内容创新和直接交流的新趋势。🚀

所以从某种意义上来说，Discord 也变得与微信、抖音等超级 App 越来越相似，Discord 上的个人服务器几乎就与小程序没什么两样。大家也发现相比于传统的 BBS，前者提供的交流环境更符合现代人的需求，直接导致海量 BBS 迁移到了 Discord。且不提在搬迁过程中损失的数据，从公开的 BBS 到私有的 Discord 服务器，数据同样也完成了一次从公开到私有的转化。

🌟高质量语料虽稀少，全球皆有此困扰并非中文独享。📱App崛起，使之无形中分散且难以触及，加剧了这一挑战。💡然而，这正是未来互联网巨头的机遇所在——拥有优质数据将成为核心竞争力。👀无论是AI巨擘如英伟达，还是内容领域的领头羊，都将从这个趋势中受益，AI大模型将引领潮流，带动相关平台蓬勃发展。💰数据为王的时代已经到来，谁能把握住这股力量，谁就可能在数字经济的海洋中独占鳌头。🚀

当然，无论哪一种猜测都无法掩盖谷歌确实丢人现眼了，直接薅文心一言的羊毛被抓现行已经很难看，更难看的情况则是 Gemini 的数据库被污染了。要知道谷歌可是做搜索引擎起家的，而搜索引擎的核心技术就包括了数据清洗，将爬虫抓取数据中存在的缺失值、异常值 ( 离群点 ) 、重复值去除，就都是数据清洗的一部分，结果在自家的明星产品 Gemini 上失手，这可就称得上是 ” 打了一辈子雁，到头来被雁啄了眼睛。”

【本文图片来自网络】