原创 crops 真正的人工智能
笔者也很关心时政,所以也关注过不少时政公众号,可是因为看电脑、手机太多,再加上年纪大了,视力越来越不行,好在一些公众号善解人意,给文章加上语音,这样听就可以了,不用再费眼,真是非常好!
所以后来笔者就只关注那些有语音的公众号,没有语音的都取关了,可是这样也有不好的地方,就是失去了一些不错的公众号,因为它们没有语音,而且有语音的毕竟是少数,所以还是有不少遗憾。不过想想也是,我自己也是做公众号的,能够理解这里面的苦衷,有了语音后,读者听完往往就退出了,于是点赞、看广告什么的都会减少。
最近,转机终于来了,微信给所有公众号都加上了语音,笔者也就再也不会有失去所喜欢公众号的遗憾了,只是苦了公众号主们……
记得笔者第一次听机器读文章,那还是差不多30年前,当时是IBM的技术,那个听起来简直太痛苦了,它是一个字一个字往外蹦,没有词语、语句中的那种连贯,更不要说什么抑扬顿挫了,所带来的问题就是很难在听者脑中形成完整的一句话,每个字你都听明白了,但就是不知道它在说啥
,所以试过一次后就再也没用了。
得益于人工智能的发展,尤其是深度学习的巨大成就,今天的机器语音可以说已经非常好了,不仔细听,很多人会误以为那是真人的声音,完全不会影响理解文章的意思,也就为笔者这种不想用眼睛看太多文字的人带来了福音。
当然,由于现在的主流人工智能技术,也就是深度学习,仍然没有对语言的真正理解能力,如果你仔细听机器语音,还是能发现其与真人朗读有差距,一是分词的问题,即有时候会将一个词从中间分断,比如将“世界经济发展”读成“世界经济发,展”;二是有时不能分辨多音字,比如将“银行”读成“银xing”。
不过,通过词库以及更大规模数据的统计和学习,当然也包括算法和技术上的改进,笔者认为以上两个问题还是比较容易解决的,而下面要说的第三个问题恐怕就有难度了。
听多了人工智能的语音,你一定会发现一个问题,即它是个没有感情的复读机,无论文章的内容是什么,它都是平铺直叙的,不会根据文章的内容有情绪上的起伏和抑扬顿挫。有时听上去似乎也有点感情色彩,但那也是人为设置的,每次遇到同样的内容,其语调都完全一样,不会因为语境的不同而发生变化。这样的声音听得多了,不免会让人觉得有些乏味,降低人们听文章的兴趣,因此如果机器的语音也能根据内容带上感情色彩,那一定会增色不少。
这里简单总结一下,有感情的人工智能语音大概分三个级别:
低级:如现在的微信语音,有连贯,有一定的抑扬顿挫,基本不会影响听者对语句含义的理解;
中级:可以人为设置朗读的感情色彩,如兴奋、严肃、气愤等,不过一旦设置好,就只能按照这种感情朗读,中间不会根据文本的内容而做出恰当的转变,如果要转变也需要人为设置;
高级:就如同专业的人类播音员或说书人,能够“理解”文章所蕴含的情感,适时根据内容用不同且恰当的感情色彩来朗读,可能上一句是快乐的,下一句就是愤怒的,而且即便都是愤怒的,还能够根据文本内容而有程度上的不同。
低级和中级在技术上已经解决,也有了相应的产品,现在就希望能有高级的技术和产品(用户总是贪得无厌的
),然而这个问题别说人工智能了,就是人来读,都不是每个人能做好的,而没有理解能力的机器要想做好,可能就更难了。
或许有朋友认为可能要等到通用人工智能(AGI)实现才能解决这一问题,不过,最近看到一篇文章给我们带来了希望,《解锁通用听觉人工智能!清华电子系联合火山语音,开源全新认知导向听觉大语言模型》,看来这一问题在准通用人工智能(PAGI)阶段就有望得到解决,该篇文章说:
相较于仅仅支持语音输入或非语音音频输入的其他大模型,SALMONN对语音、音频事件、音乐等各类音频输入都具有感知和理解能力,相当于给大语言模型「加了个耳朵」,从而涌现出多语言和跨模态推理等高级能力。
……
与先使用API调用「ToolFormer」,将语音或非语音音频输入转为文字,再将文字输入大语言模型的API路线相比,SALMONN可以直接从物理世界获取知识,并对一些复杂的音频场景涌现出完整的理解能力。
可以看出,这个SALMONN模型的训练数据不是仅有文字,而且还有声音,其声音部分不同于传统的做法是把声音转换成文字,而是直接使用声音进行训练,因此模型也就可能学习到声音中的情感成分。
如同笔者前不久的文章《精彩!一场关于“认知”的头脑风暴》所说的,人的认知是高维的,用语言说出来就降维了,再变成文字就又进一步降维,这里所谓的降维就是指失去原本认知的一些维度,比如声音中的情感色彩,导致信息产生了一定的失真。换句话说,如果能通过声音直接学习语言,那么就可以学习到语言中那些难以用文字表述的丰富细节,比如语速的快慢可能表明了说话者的紧张程度,这在文字上是很难体现得恰到好处,你最多可以写上“他因紧张而语速很快”,但到底有多快,就说不清楚了,只有直接听声音才能感受。
姑且先不论这篇文章中所说的“理解能力”是不是人工智能对语言的真正理解,从其中的例子可以看出,该模型能够在一定程度上“听”出说话者的情感,那么反过来也就可能根据文字说出与文字相符的情感语音,虽然文中还没有这样的例子,但该研究已经朝着正确方向迈出了非常有益的一步,相信沿着这条路走下去,不久的将来我们就能听到带有丰富情感色彩的机器语音了。
更进一步,有情感的语音对话等也有望实现,比如现在打一些客服电话,与我们对话的常常是机器人,它们的语音同样是没有感情的,不管你是着急也好,悲伤也好……,它们都是一个语调同你对话。未来的机器人如果听出你是着急的语音,它或许会先用舒缓的语调安抚你,然后再帮你解决具体问题。
再比如,现在已经有不少企业在考虑将大模型等人工智能技术应用于病人、老年人等的护理机器人,这样的机器人肯定就更需要能与被护理者进行带有情感的对话,因为被护理者不仅需要生理上的护理,更需要情感上的安慰,所谓良言一句三冬暖,希望机器人也能早日懂得什么样的语言和语气才是良言。
– END –
(封面图片由阿里通义万相大模型生成)