有感情的AI才是好AI

47 0 0

原创 crops 真正的人工智能

笔者也很关心时政，所以也关注过不少时政公众号，可是因为看电脑、手机太多，再加上年纪大了，视力越来越不行，好在一些公众号善解人意，给文章加上语音，这样听就可以了，不用再费眼，真是非常好！

所以后来笔者就只关注那些有语音的公众号，没有语音的都取关了，可是这样也有不好的地方，就是失去了一些不错的公众号，因为它们没有语音，而且有语音的毕竟是少数，所以还是有不少遗憾。不过想想也是，我自己也是做公众号的，能够理解这里面的苦衷，有了语音后，读者听完往往就退出了，于是点赞、看广告什么的都会减少。

最近，转机终于来了，微信给所有公众号都加上了语音，笔者也就再也不会有失去所喜欢公众号的遗憾了，只是苦了公众号主们……

记得笔者第一次听机器读文章，那还是差不多30年前，当时是IBM的技术，那个听起来简直太痛苦了，它是一个字一个字往外蹦，没有词语、语句中的那种连贯，更不要说什么抑扬顿挫了，所带来的问题就是很难在听者脑中形成完整的一句话，每个字你都听明白了，但就是不知道它在说啥

，所以试过一次后就再也没用了。

得益于人工智能的发展，尤其是深度学习的巨大成就，今天的机器语音可以说已经非常好了，不仔细听，很多人会误以为那是真人的声音，完全不会影响理解文章的意思，也就为笔者这种不想用眼睛看太多文字的人带来了福音。

当然，由于现在的主流人工智能技术，也就是深度学习，仍然没有对语言的真正理解能力，如果你仔细听机器语音，还是能发现其与真人朗读有差距，一是分词的问题，即有时候会将一个词从中间分断，比如将“世界经济发展”读成“世界经济发，展”；二是有时不能分辨多音字，比如将“银行”读成“银xing”。

不过，通过词库以及更大规模数据的统计和学习，当然也包括算法和技术上的改进，笔者认为以上两个问题还是比较容易解决的，而下面要说的第三个问题恐怕就有难度了。

听多了人工智能的语音，你一定会发现一个问题，即它是个没有感情的复读机，无论文章的内容是什么，它都是平铺直叙的，不会根据文章的内容有情绪上的起伏和抑扬顿挫。有时听上去似乎也有点感情色彩，但那也是人为设置的，每次遇到同样的内容，其语调都完全一样，不会因为语境的不同而发生变化。这样的声音听得多了，不免会让人觉得有些乏味，降低人们听文章的兴趣，因此如果机器的语音也能根据内容带上感情色彩，那一定会增色不少。

这里简单总结一下，有感情的人工智能语音大概分三个级别：

低级：如现在的微信语音，有连贯，有一定的抑扬顿挫，基本不会影响听者对语句含义的理解；

中级：可以人为设置朗读的感情色彩，如兴奋、严肃、气愤等，不过一旦设置好，就只能按照这种感情朗读，中间不会根据文本的内容而做出恰当的转变，如果要转变也需要人为设置；

高级：就如同专业的人类播音员或说书人，能够“理解”文章所蕴含的情感，适时根据内容用不同且恰当的感情色彩来朗读，可能上一句是快乐的，下一句就是愤怒的，而且即便都是愤怒的，还能够根据文本内容而有程度上的不同。

低级和中级在技术上已经解决，也有了相应的产品，现在就希望能有高级的技术和产品（用户总是贪得无厌的

），然而这个问题别说人工智能了，就是人来读，都不是每个人能做好的，而没有理解能力的机器要想做好，可能就更难了。

或许有朋友认为可能要等到通用人工智能（AGI）实现才能解决这一问题，不过，最近看到一篇文章给我们带来了希望，《解锁通用听觉人工智能！清华电子系联合火山语音，开源全新认知导向听觉大语言模型》，看来这一问题在准通用人工智能（PAGI）阶段就有望得到解决，该篇文章说：

相较于仅仅支持语音输入或非语音音频输入的其他大模型，SALMONN对语音、音频事件、音乐等各类音频输入都具有感知和理解能力，相当于给大语言模型「加了个耳朵」，从而涌现出多语言和跨模态推理等高级能力。

……

与先使用API调用「ToolFormer」，将语音或非语音音频输入转为文字，再将文字输入大语言模型的API路线相比，SALMONN可以直接从物理世界获取知识，并对一些复杂的音频场景涌现出完整的理解能力。

可以看出，这个SALMONN模型的训练数据不是仅有文字，而且还有声音，其声音部分不同于传统的做法是把声音转换成文字，而是直接使用声音进行训练，因此模型也就可能学习到声音中的情感成分。

如同笔者前不久的文章《精彩！一场关于“认知”的头脑风暴》所说的，人的认知是高维的，用语言说出来就降维了，再变成文字就又进一步降维，这里所谓的降维就是指失去原本认知的一些维度，比如声音中的情感色彩，导致信息产生了一定的失真。换句话说，如果能通过声音直接学习语言，那么就可以学习到语言中那些难以用文字表述的丰富细节，比如语速的快慢可能表明了说话者的紧张程度，这在文字上是很难体现得恰到好处，你最多可以写上“他因紧张而语速很快”，但到底有多快，就说不清楚了，只有直接听声音才能感受。

姑且先不论这篇文章中所说的“理解能力”是不是人工智能对语言的真正理解，从其中的例子可以看出，该模型能够在一定程度上“听”出说话者的情感，那么反过来也就可能根据文字说出与文字相符的情感语音，虽然文中还没有这样的例子，但该研究已经朝着正确方向迈出了非常有益的一步，相信沿着这条路走下去，不久的将来我们就能听到带有丰富情感色彩的机器语音了。

更进一步，有情感的语音对话等也有望实现，比如现在打一些客服电话，与我们对话的常常是机器人，它们的语音同样是没有感情的，不管你是着急也好，悲伤也好……，它们都是一个语调同你对话。未来的机器人如果听出你是着急的语音，它或许会先用舒缓的语调安抚你，然后再帮你解决具体问题。

再比如，现在已经有不少企业在考虑将大模型等人工智能技术应用于病人、老年人等的护理机器人，这样的机器人肯定就更需要能与被护理者进行带有情感的对话，因为被护理者不仅需要生理上的护理，更需要情感上的安慰，所谓良言一句三冬暖，希望机器人也能早日懂得什么样的语言和语气才是良言。

– END –

（封面图片由阿里通义万相大模型生成）