文章主题:通义千问, 阿里, 大模型, NLP
↑ 点击上方“AI赋能实验室”关注我们
通义千问是阿里4月份发布的大模型,很抱歉,我们很晚才展开对它的评测。
目前,对通义千问的网上评测已经很多了,我们不必过多重复造轮子。基本上,它的能力和文心一言、昆仑天工这些是在同一水准上。
比较容易出错的领域,比如逻辑题体系:
逻辑出错。
回答比较混乱
未能完整理解指令
翻译(基于上下文),无法完全理解任务
其实上述错误在其他国产大模型也很常见,但在我们使用通义千问的过程中,遇到上述问题的频率是非常高的。这让我们非常惊讶,也是我们决定多测试一段时间再下结论的原因。
经过一系列测试,我们发现,通过类似预制角色定位这样的加持,通义千问的输出效果要比直接问答要好得多。
经过深入分析,我们得出的结论是,阿里巴巴的大型AI模型道路上,存在大量原本用于自然语言处理(NLP)的元素,在通用的千问模型中表现不尽如人意。这可能暗示着整体训练规模尚不足以支撑其性能,然而在诸多针对NLP的问答训练场景下,该模型的表现却相当出色。
所以,我们猜测,通义千问从产品和应用角度出发,它可能一开始就没想过非要走CHATGPT那种扮演一个无所不知无所不能的AGI的路子;从产品的角度来说,阿里方面希望它能够给出的是对有限应用、特定场景下的最优解。
毕竟,在众多大模型中,通义千问背靠阿里支付宝体系,天然有着最广泛的也能马上接入的应用场景。
最近两天,阿里连续放出的大招,更加是验证了我们上面的猜想。
首先是通义千问已经通过 “/”投入钉钉体系实际使用。
然后,是这两天放出来的通义听悟,这是一个基于大模型的全语音听说能力应用,能听,也是大模型的一种多模态能力。
例如,那些在学术方面并非特别出色的普通人,如果具备自我认知的能力,他们在某些特定科目的学习上会投入更多的精力,努力钻研,以期在某个实用领域取得突破性的成果。
所以,通义听悟相当于是真正意义的大模型级别下放应用,然后直接对线科大讯飞的星火大模型。
应该说,这玩意本来应该是科大讯飞专精的,语音转写这一块可是讯飞的传统优势,在上个月的发布会上,讯飞把这一块的能力和他的硬件绑定在一块了;门槛显然更高。格局多少偏低。
在语音转写的领域,纯软件的形式一直被视为讯飞的高毛利业务,而该业务对于讯飞公司的重要性不言而喻。尽管如此,讯飞却始终不愿意轻易地接入大模型,这无疑是一种自我保守的表现。从下面的价格截图我们可以看到这一点。
那么,现在压力来到讯飞和其他大模型这一边了;显然,基于大模型的通义听悟,其杀手锏能力是不仅能听能转写还能基于大模型语言能力做总结,而且是纯软件的;场景应用方面也是极其接近用户痛点的。
总结一下,我们认为阿里通义千问大模型实际上已经通过行动给出了几个它自己关于应用的答案:
1、大模型的绝对(对话)能力并不那么重要
2、大模型主要看是否具备投入应用的能力,这里面公司的算力储备是大规模应用的前提
3、大模型的应用,在中国还得看前期江湖地位,毕竟流量这一块巨头把得死死的
4、阿里示范了如何把一个不是top1的大模型在应用层补短板
总体来说,6月份,应该就是中国大模型开始进入公测期后期,尝试面向应用试水变现能力的时刻了。阿猫阿狗都得上阵,之后大家就是血拼推广的时刻了。
喜欢本文,请在右下角给我们点下“好看”
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!