▎AI大模型,真的准备好了?
钛媒体作者丨太平洋科技
8月30日晚间,百度旗下AI大模型文心一言宣布向全社会全面开放,所有用户都可以体验这款AI大模型了。
8月31日的时候,百度方面又公开表示,开放下载12小时后,文心一言App登上了苹果商店免费榜榜首,成为首个登顶的中文AI原生应用。
与此同时有多家媒体报道称,国内将有11家大模型陆续通过审批备案,从8月31日起陆续向全社会公众开放服务。显然,文心一言是其中最早与用户见面的那个。
相关的消息也受到了互联网、科技圈的聚焦关注,各类观点、分析、报道层出不穷。不过虽然互联网、科技圈嗨了,但似乎普通用户对文心一言乃至整个AI大模型的感知都并不高。
PConline随机询问了多位非互联网、科技圈的用户,普遍表示并不了解文心一言以及众多AI大模型,即便对于此前爆火的AI大模型ChatGPT,也仅仅只是听过名字而已,对于具体的功能内容并不了解。
从数据来看也是如此,更多的人或许还并不了解和关注AI大模型。百度搜索指数显示,文心一言、ChatGPT的相关搜索热度始终保持着较为平缓的曲线,并未出现太大的波动,而从热度数值的对比来说,则是远远低于抖音这样的主流App应用。
这其实与大模型尚处于发展早期,相关平台还需要经历长期的迭代完善,缺乏现象级的应用与用户产生连接等方面有关。即使是如今面向社会开放的文心一言,也还有许多不尽如人意的地方。
文心一言,总出错?
按照百度方面的介绍,文心一言并非仓促上马的项目,而是经历了数年的发展积淀。文心一言的基础模型文心大模型发布于2019年,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。
例如今年7月据多家媒体报道,人民数据研究院选取文心一言、讯飞星火、通义千问、ChatGPT四个主流AI大模型进行评测,结果显示文心一言排名第一。
从评测维度可以看到,在内容生态、数据认知、逻辑推理等方面,文心一言均有着一定的优势能力。这其实不难理解,毕竟百度深耕AI领域多年,有着很强的AI技术积累,作为头部搜索平台,在大数据方面自然也是有着一定优势的。
不过虽然文心一言在各类测评中取得了好成绩,但在实际的使用体验上仍然有不少被用户吐槽的地方,其AI智能程度也似乎并未达到部分用户的预期。
例如在文心一言榜单登顶的苹果商店中,按照时间顺序查看到的用户评论几乎都为负面,主要集中在答非所问、内容错误等方面。PConline也发现,在华为应用商店、vivo应用商店的文心一言评论区,同样出现了不少类似的吐槽评论。
PConline在实际体验中也发现了一些事实错误的情况,同时也有一些表现得不够智能,不够出彩的地方。
例如PConline在百度搜索里找到了一张罗纳尔多的照片,拿来问文心一言时得到的回复却是贝利。
同样的,PConline在百度搜索中获取了一张姆巴佩的照片,文心一言通过一番推理,用一种不太确定的口吻回答说这人可能是姆巴佩。与此同时,法国队并未获得2022年世界杯冠军,即便在2018年夺冠的那一届,也不存在制胜一球的说法,法国队4粒进球中也只有一球来自于姆巴佩,所以无论从哪个维度来说,文心一言给出的信息都算不上准确。
在文心一言宣传中提到的写文章功能上,PConline在简单的测试中发现结果似乎并不太智能。
PConline用今年暑期曾备受关注的上海迪士尼门票争议的新闻话题,让文心一言写一篇文章,得到的内容只能说是一篇较为初级的分析文章,重点是全文完全没有提到此前发生的一些新闻事件和舆论争议内容,而这些恰恰是百度搜索引擎中最容易获取到的信息数据。
在体验中PConline还遇到了一个有趣的小插曲,当你问类似“百度遇到过什么失败”等与百度公司相关的非正面话题时,文心一言要么拒绝回答,要么直接结束对话。但当同样的问题,主体换成其他企业时,文心一言会正常给出回答内容。
当然,作为百度开发的一款AI大模型,维护百度的形象、避开百度的一些负面内容,这并没有什么问题,但如果能在这方面也保持客观公正的态度,像回答阿里失败案例那样坦然回答百度过往的一些不足的话,就可以视为“出彩”的表现了。
用户来体验,顺便当个“工具人
回到文心一言被吐槽的内容错误问题上。“AI大模型怎么总会给出错误答案?”有意思的是,PConline也将这个问题抛给了文心一言,得到了一个颇为诚实的回答。
文心一言将原因分为了这几点。首先是数据训练不足,AI大模型的准确性与其所依赖的数据训练密切相关,如果训练数据不足或不够多样化,AI大模型可能无法准确解析结果。
第二点是语义理解存在一定的挑战。AI模型往往是通过深度学习算法来学习和理解文字、图像等内容形式的,这个过程存在着非常多的困难和挑战。比如当面对抽象画或有着多重含义的内容时,AI大模型可能无法进行准确的解析。
文心一言也表示,为了克服这些问题,研究人员可以通过增加训练数据、改进模型架构和提高算法精度等方式来优化AI大模型。同时对于含有特定语义信息的图像,如抽象画,可以通过额外的标注或特定的训练来提高模型的解析能力。
简单来说,AI大模型想要变得越来越完善,越来越好用,就需要更强的大数据库,更精准的训练算法,更高强度的使用频次。
那么该如何更好地解决这些问题呢?AI领域有一个十分直白的法则,“人多力量大”。不妨试想一下,面向大众开放,让海量的用户参与到使用中来,是不是能满足这几大关键条件?
用一个故事可以很好地理解这一点。人工智能、计算机视觉科学家李飞飞曾在2009年就发表过一篇论文,讲述了来自全球167个国家近5万名工作者,以众包的方式通过三年努力,人工标注出了1500万图像。
正是这5万人的努力,让AI产业收获了一个有标志性意义的数据集,这庞大规模的标注性数据,对AI领域中的计算机视觉技术的发展,起到了极为重要的推动作用。
无独有偶,在游戏领域,一款网络游戏在正式上线运行之前,必须要经历内测和公测阶段。顾名思义,公测就是公开测试的意思,主要就是为了邀请更多的用户参与进来,侧重于客户端可能出现的问题,测试服务器的性能和查找程序的BUG等等,是产品正式上线运营以及不断迭代优化的必要环节。
所以简单来说,大家可以把文心一言此次的“对全社会开放”理解为公测,只有越来越多的用户参与进来,不断使用文心一言,产生越来越多的使用体验、反馈意见等数据,才能让文心一言更好地完善功能、迭代发展。
实际上,从文心一言的功能设计也能看出用户的真实体验和反馈对其AI大模型发展的重要性。几乎在每一次与用户的交互后,文心一言都会出现一个比较醒目的按钮图标,方便用户对回答内容和交互体验的评价,用户可以点击赞或者踩,无论点击哪一个按钮,文心一言都会弹出新的窗口,希望用户能更为详细地记录和反馈真实意见。
其实百度创始人李彦宏说的一段话也值得大家关注,“当文心一言向数以亿计互联网用户大规模开放服务后,能够获得大量真实世界中的人工反馈,这将进一步改进基础模型,并以更快速度迭代文心一言,创造更好的用户体验。”
这段话其实也意味着,所谓的百度文心一言向全社会全面开放,并不是百度单方面给予社会、用户的一项利好,用户的体验和反馈,对于百度文心一言来说或许才有着更为重要的意义和价值。
但PConline需要指出一个十分重要的地方,文心一言在面向全社会开放的阶段,是否更应该先完善好信息错误这个最核心的问题,而不是指望在后续的用户使用中,让用户来帮忙完成。
不妨想想,如果这是一款新上市的汽车,厂家跟消费者说,我们的车子可能会偶尔失灵、失控、开到错误的路上,我们的车子还存在很多安全漏洞,不完善的地方,希望各位消费者在后续的使用体验中多多反馈这些问题……那么这家汽车厂商还有存在的必要吗?
回看文心一言,用户在使用过程中如果得到的信息和内容本身就存在错漏,会引发的负面后果是难以估量的,尤其在文心一言对全社会开放,大量的用户涌入后,这样的风险和危害性或将成倍增长。
试想一下,如果每天有一定数量的虚假、错误内容经由AI大模型传递给了海量的用户,会出现怎样的后果?最直接的就是会出现无数个现代版的“三人成虎”案例,严重的话会导致整个互联网空间充斥着谣言、虚假新闻、错误信息等不可信内容。
量子位就曾在一篇相关报道中,将这样的现象称为“AI正在污染中文互联网”。
简单来说,AI生成的内容并不是凭空而来的,而是需要一定的信息素材作为基础。当AI因为各种原因生成了错误、虚假信息后,这些信息又可能成为另一个AI生成内容时的素材。
当互联网空间充斥着AI制造的垃圾信息后,这种无限套娃式的AI信息传递,就会变成一个输入和输出都是垃圾信息的死循环,这是一个十分可怕的糟糕局面。
这不仅仅是文心一言,而是所有AI大模型都必须要重视的问题。
小结
其实无论文心一言还是其他的AI大模型,都需要回答一个核心的问题,为什么用户需要你,你凭什么能替代原有的工具平台。
比如PConline在文心一言中提问李白是谁,文心一言给出的只有两段十分简要的介绍。但在百度等传统的主流搜索引擎中搜索这个问题后,用户可以得到十分丰富的内容展现,无论图片、视频、文章等多元化的呈现形式,还是从李白到杜甫,再到盛唐历史等更有创造性地内容延伸,体验感和需求满足等维度,都是文心一言这样的AI大模型所无法比拟的。
说到这里PConline必须指出文心一言一个必须引起重视的隐患问题。
文心一言在App中还提供了一个“发现”专区,里面有着非常丰富的预设主题和场景,显示为“灵感小工具”,观察来看是帮助用户更好地使用文心一言的功能,可以有效地提升用户的使用场景和需求频次。
但PConline也在其中发现了不少游走于违规边缘的所谓AI大模型使用场景。比如AI生成淘宝评论、外卖评论、小红书种草文案、小红书探店文案、知乎回答等,而这些恰恰是各大平台目前严打的虚假内容。
比如点开“知乎回答生成”这个所谓的灵感小工具,就会进入到一个预设好的对话框,文心一言会提供一些预设的问题让用户选择,然后自动模仿知乎平台的回答内容生成文案,用户也可以自由发挥,提出指定的问题让文心一言生成AI答案。
可以毫不夸张地说,理论上AI大模型在工具属性和用户体验上能为用户带来巨大的效率提升和想象空间,但也存在着被刻意利用,造成网络空间信息污染,不法商业牟利等恶果的风险。
总而言之,要避免这个情况,还是得回到本文一再强调的问题上。用户为什么需要AI大模型?让这个世界变得更好,AI大模型能提供怎样的可能性?如何锁住AI大模型可能产生的“恶”?
需要思考的问题还有很多很多,期待未来文心一言以及更多的AI大模型们,能交出一个尽可能完美的答卷。
本文授权转载自太平洋科技(pcconline_cn)
作者 | PC
热点视频推荐
8月31日下午,港股星空华文跌超11%,跌破发行价26.5港元,市值降低至百亿以下。《中国好声音》此前遭浙江卫视宣布暂停播出。数据显示,《中国好声音》是星空华文旗下最大的综艺IP,2019年-2021年其贡献营收分别为4.91亿元、3.25亿元、2.52亿元。
点赞关注钛媒体视频号,观看更多精彩视频*温馨提示:喜欢钛媒体公众号的小伙伴注意啦!根据公众号推送新规,请将钛媒体设为“星标”,这样才能第一时间收到推送消息,已设置的小伙伴还需要重新设置“星标”哦
———–华丽的分割线————
下载钛媒体App,领先一步,更深一度。
下载【钛媒体App】,领先一步,更深一度。
万水千山总是情,点个在看行不行