文章主题:关键词: 情感分析, 多模态信息, 领域迁移, 细粒度情感分析
摘要
🌟情感理解是AI领域的深度探索,它以精准洞察用户情绪为核心,为AI产品的优化提供了强大动力。通过情感分析,无论是产品质量检测、智能对话的流畅度,还是风险控制的精确性,都能显著提升。更值得一提的是,它在舆论监控中发挥着关键作用,确保信息的真实与公正。👩💻让我们一起深入探讨这项前沿技术如何引领未来AI服务的升级之路!💡번역결과🌟 감정 인식은 AI의 복잡하고 고급한 응용 분야로, 인간 상호 작용 과정에서 정확하게 감정 상태를 파악하여 AI 제품의 사용 경험을 크게 향상시킵니다. 검사, 대화 상호 작용, 위험 관리, 언론 감독 등 다양한 분야에서 중요한 역할을 합니다. 🤝 이번 기술 공유에서는 이 혁신적인 기술이 어떻게 미래의 AI 서비스 업그레이드에 큰 영향을 미치는지 자세히 살펴보겠습니다! 💡번역결과🌟 감정 인식은 AI의 고급스러운 측면으로, 사용자의 감정을 정확하게 파악하는 데 중점을 두고 AI 제품 개선에 큰 도움을 줍니다. 검사, 대화 품질, 안전 관리 등 다양한 측면에서 강력한 영향력을 미칩니다. 또한 언론의 신뢰성과 공정성을 보장하는 중요한 역할을 합니다. 🤝 이번 세미나에서는 이 혁신이 어떻게 미래 AI 서비스의 패러다임을 형성하는지 자세히 논의하겠습니다! 💡번역결과🌟 감정 분석은 AI의 고급스러운 측면으로, 사용자의 감정을 정확하게 읽고 AI 제품 개선에 큰 도움을 줍니다. 검토, 대화 품질, 위험 관리 등 다양한 영역에서 강력한 효과를 발휘합니다. 또한 언론의 신뢰성과 윤리적 측면에서 중요한 역할을 합니다. 🎯 이 세미나에서는 이 혁신이 미래 AI 서비스의 어떻게 혁신을 가져올지 자세히 논의하겠습니다! 🔍번역결과🌟 감정 분석은 AI의 고급스러운 기능으로, 사용자의 감정을 정확하게 파악하여 제품 개선에 큰 도움을 줍니다. 검토, 대화 흐름, 안전성 등 다양한 측면에서 강력한 영향력을 미칩니다. 또한 언론의 신뢰와 윤리적 측면에서 중요한 역할을 수행합니다. 📈 이번 세미나에서는 이 혁신이 미래 AI 서비스 어떻게 혁신을 가져올지에 대해 논의하겠습니다! 💬번역결과🌟 감성 분석은 AI의 고급스러운 지능으로, 사용자의 감정을 정확하게 파악하여 AI 제품 개선에 큰 도움을 제공합니다. 품질 검사, 대화 기술, 안전 관리 등 다양한 측면에서 활용됩니다. 또한 언론감독에서 중요한 역할을 수행하며, 미래의 AI 서비스 혁신의 핵심 요소로 자리 잡고 있습니다. 🤝 이번 세미나에서는 이 혁신의 향후 영향과 어떻게 작용하는지에 대해 논의하겠습니다! 💡번역결과🌟 감성 분석은 AI의 고급스러운 기술로서, 사용자의 내면 상태를 정확하게 파악하여 AI 제품 개선에 큰 도움을 제공합니다. 품질 검사, 대화 흐름, 안전 관리 등 다양한 측면에서 활용되고 있습니다. 또한 언론의 윤리적 측면과 감독에서 중요한 역할을 수행하며 미래의 AI 혁신의 핵심 요소입니다. 🌟 이번 세미나에서는 이 기술이 어떻게 미래의 서비스 혁신에 미치는 영향을 논의해 보겠습니다! 🔍
1、情感分析基础知识与应用场景
🌟在情感分析的实战应用中,我们常常面临三大难题:🔥如何高效地融合多模态数据以提升模型表现?🔍如何巧妙运用领域知识迁移来降低标注成本?💡以及如何通过精深的细粒度分析,为用户带来更贴近生活的精准反馈?首先,面对海量多模态信息的处理,我们需要创新策略,就像建筑师精心设计建筑结构那样,将文本、图像和语音等不同维度的情感线索无缝对接,让模型能够从多个角度理解情感动态。📚其次,利用领域迁移技术就像是在知识海洋中寻找宝藏,通过已有的专业知识引导,我们可以减少标注工作量,同时保证分析的准确性。🔍最后,情感分析不应止步于宏观概述,而是要深入到用户的具体需求和情境中,提供微观且实用的情感洞察。 示例:从用户评论中的微妙语气变化,到产品使用过程中的细微反馈,每一个细节都值得我们去捕捉和解读。👀通过这些策略的优化,我们可以让情感分析真正落地生根,为用户提供更高质量的服务。🌱
3、追一科技情感分析解决方案
情感分析技术介绍
什么是情感分析
🌟理解情感,探索内心世界🌍!每种情绪,如🌈积极正向、😔消极负向与,”,平静的中性”(简称情绪),都是人际互动中的独特语言。它们编织着复杂而丰富的交际网,传递着微妙的信息信号。从喜悦的微笑到愤怒的爆发,再到忧郁的低语,悲痛的眼泪甚至恐惧的颤抖,每一种情感都藏着目标对象在特定情境下的真实感受和态度倾向。📊通过情感分析这把钥匙,科技能深入解析这些情绪波动,揭示其背后的心理世界。这是一种现代的洞察力,让我们的理解和沟通更加精准。👩💻联系方式?无需担心,这里专注于提升你的文字触觉,让你的情感表达如诗如画!
🌟人工智能与情感智慧:提升用户体验的隐形力量🔍在AI产品的日常互动中,精准解读用户情绪是提升服务品质的关键一步。从质检到对话交互,再到风险控制和舆论监控,情感状态的精确把握都能带来显著效益。💡例如,在服务业,客户满意度的深度分析能帮助企业优化运营,提升顾客满意度;电商世界里,商品偏好与竞品对比的情感洞察,则为商家提供产品优化策略的方向指引。📈人机交流中,理解并回应对方的情绪,让机器人以同理心展现关怀,是提升交互体验的润滑剂。适时的友善用语,就像情感温度计,能温暖每个用户的心。👍情感分析算法如同一把锐利的工具,帮助我们从海量信息中提取出那些至关重要的情绪线索。🚀无论是商业决策还是日常沟通,情感智慧都成为现代生活不可或缺的智能元素。👩💻👨💻
情感分析方法的多样性和灵活性体现在其多维度的分类中。首先,从情感极性来看,包括正面与负面的精确剖析;其次,情感类别层次分明,涵盖了全面的情感识别;再者,情感程度的深入解析,让理解更加细腻。此外,根据应用场景的不同,我们还可以细分为会话级、句子级乃至实体级的情感分析,每个级别都针对特定的信息需求进行精准刻画。这些分类方式都是为了更好地理解和解析各类文本数据,提升分析的有效性和准确性。记得使用相关性强且利于搜索引擎的词汇哦!😊
什么是多模态
原文改写:💡 获取信息的多元途径:日常生活中,我们无处不在地与各种模态交流互动。从阅读的文字到聆听的声音,再到观察的图像,甚至通过味觉和触觉感知,每个信息都源自独特的感官通道。我们把这些不同的来源统称为模态,构成了丰富多样的信息世界。🌍SEO优化建议:使用相关关键词如”多元模态交互”、”信息获取方式”、”感官体验”等,增加emoji符号以提升可读性,例如:🌐文字与味觉的交织,🎯声音与触觉的连接,🖼图像与视觉的碰撞,让生活中的每个瞬间都充满信息的火花。记得优化段落结构,保持语句流畅且具有吸引力。
之所以划分出不同的模态,首先是因为不同场景下可以接触到的信息不同,其次是不同模态提供的信息往往不同,而最重要的是对不同模态的信息需要采用的处理和建模方式也不同。简单情况下,我们可以仅通过单一的模态就可以得到一个对情感态度的判断,例如一段评价文字,一通对话录音,一段评论视频等。自然地,我们也可以结合多个模态的数据并将其统一建模,这就是多模态方法。
简单来讲,多模态方法的核心驱动就是:更多的信息来源可以帮助我们做出更优的决策。
多模态情感分析
对于情感分析来说,情感表达可以来源于文字、音频、图像,结合两种及以上模态建模情感分析,就是多模态情感分析方法。 由于不同模态的信息在数据形式和处理方式上有很大差别,在统一模型中多增加一种模态信息虽然可以带来潜在的建模效果提升,但同时也增加了建模的复杂度和难度。例如,通过一句话的文字和对应的录音建模时,需要先将字符串和音频分别用两种截然不同的处理方式量化为模型可接受的表征。
多模态模型策略在情感分析任务中是十分必要的。首先,很多时候仅通过文本或者语音很难准确判断出情感状态。一个极端例子是反讽。反讽往往结合中性或者积极的文本内容和与内容不匹配的音频来完成消极(负向)的情感表达。而这仅靠单模态模型就很难判断出真实的情感意图。其次,单模态模型容易受噪声影响而导致效果问题,例如上游语音识别(ASR)出现的识别错误往往会对下游分类任务产生较大影响。因此,要想在实际应用中有一个稳定强大的模型,多模态的建模方法就是必行之道。
情感分析的方法介绍
情感本身是一种复杂的信息体现,在情感建模中使用不同的模态信息有着不同的处理方法及对应的挑战,下面简单介绍一下目前通用的一些建模方法及它们所存在的问题。
单模态方法简介
单模态模型指的是通过单一信号进行情感分析的模型,例如仅基于文本内容或音频信号来进行情感分析。
文本模型
得益于丰富的文本数据来源,文本模型是最常用的情感分析处理方法,通常的任务是对一句话的文本进行情感分类。从原理上大致可以分基于情感词典的方法、以及基于深度学习的方法。基于感情词典的方法此方法是基于跟情感分类相关的关键词,结合目标场景预先建立一个情感关键词的词典,由关键词的情感汇总判断出句子的情感,是一种自下而上的方法。
实际应用中,基于情感词典的方法往往和规则结合使用,从而实现更准确的判断。但是维护情感词典和规则本身是一项耗时耗力的工作,对词典的调优也有着很大的困难。
而基于深度学习的方法则是当前较为流行的方法,它的好处在于它可以端到端地进行情感分析任务,而不需要像基于情感关键词典的方法那样建立词典并使用规则。随着深度学习技术在NLP应用中的不断发展,许多不同的深度学习模型都能用来进行情感分析,例如CNN/RNN模型等。同时随着大型预训练模型的兴起,预训练+迁移学习的方式也被用于情感分析。关于预训练模型,我们在系列文章的第一篇进行了详细的介绍,这里就不再展开。
音频模型
相对于离散的文本,音频信号输入为近似连续的数值,通常需要做预处理将音频文件转化为频谱。具体步骤大致为:分帧-加窗-STFT-转化梅尔频谱,得到一个T×DT\times D维度的特征,其中TT跟时间长度有关,DD为特征长度。 音频输入由于其序列化的特点,通常也有基于CNN/RNN的方法,以及基于CRNN或CNN+Attention的方法。
多模态方法简介
单模态情感分析方法主要的不足在于没有利用完整的信息来进行情感分析。例如,如果仅仅基于文本来判断情感,则丢失掉了说话人语气与语调等与感情息息相关的信息。因此多模态方法的核心任务是最大化发挥模态融合的优势完成建模。例如通过构建“语音+文本”的双模态模型,以此得到一个效果优于同量级单模态模型的双模态模型,达到1 + 1 > 2的效果,这其中的关键在于如何将不同模态融合到一起。
模态融合可以按照其发生的不同阶段或者融合的具体方式进行大致的归类。模态融合发生的不同阶段可以直观地理解为,“模态融合”这一步发生在模型中的哪个位置,它通常可以划分为:
提前融合(Early Fusion):将不同模态的输入在模型浅层完成融合,相当于将不同单模态的特征统一到同一个模型输入参数空间,融合后的特征再输入到单个模型中完成特征提取和预测。但是由于不同模态本身参数空间的差异性,在输入层统一多个不同参数空间的方法并不能达到预期效果,实际往往很少被使用。推迟融合(Late Fusion):推迟融合方法尝试通过模型来解决参数空间不统一的问题。首先对不同模态的输入数据分别用不同的网络结构进行建模和特征提取,最终在分类层前将不同模态提取到的特征进行融合,并依赖梯度反向传播将不同模态的特征统一到同一特征空间,最后在这个新的空间上做简单的分类预测。推迟融合由于其简单的实现方式和不错的效果往往应用较普遍。多阶段融合(Muilti-Stage Fusion):推迟融合虽然通过网络本身在分类层前将不同模态特征映射到同一参数空间 ,但仅仅是在高级特征层对不同的模态特征进行融合,也因此失去了在特征提取阶段不同特征之间的相互关联信息。多阶段融合为了解决以上问题,在多个阶段对特征进行融合操作。通常先通过简单的的网络结构将不同模态参数空间统一化,融合后的特征再继续经过后续深度特征提取网络进行进一步模态相关的深层特征提取并融合,不同模型结构分支提取到的特征在分类层之前做最终的融合后进行分类预测。多阶段融合既保留了使用不同模型结构处理不同模态分支的能力,又自然地达到了不同模态信息融合的目的,对提取到强大特征更有优势。 这种方法的缺点是模型结构相对复杂,往往会设置多个损失函数,有时需要进行分阶段调优。
除了按照模态融合的阶段进行划分,多模态方法还可以根据模态融合的具体方法进行划分为:
基于拼接的特征融合:这种方式假设不同模态特征已经被统一在了同一参数空间上,并简单地将不同模态的特征进行拼接来完成融合过程。该方法虽然简单,但它并没有考虑特征之间的相互作用增益,依赖下游分类网络来融合模态信息。基于注意力的特征融合:这种方法将不同模态的特征通过注意力模块进行打分后融合,以达到充分利用模态间信息增益的目的。
追一科技情感分析解决方案
我们在前面简单介绍了单/多模态情感分析中最常用的基本方法,而情感分析技术在落地使用中,也面临着一些实际的挑战。
首先面临的是训练速度、推理速度、模型大小等与模型性能相关的问题。前面的介绍中指出,采用多模态方法理论上可以更好地进行情感分析。但在实际落地使用中,如果采用多模态模型,则代表着模型需要对多个模态进行建模,因此模型的体量通常都比单模态模型要大,而性能也随之变差。
其次是标注数据需求量的问题,这是深度学习方法普遍存在的问题。而情感分析也与多数的基于深度学习的NLP技术一样,存在着跨领域的数据标注问题。具体来说,在某一特定场景(如保险客服)下训练的模型往往不能直接用在其它场景(如运营商客服)。这是由于情感表达本身依赖于场景,在一个场景下的表达可能在另外一个场景下蕴含着不同的情感态度。同时,不同场景对情感态度判读的界定也会有差别。除此以外,如果采用的是多模态方法,还需要对不同模态的数据都进行标注,并且需要在标注过程中综合考虑各模态表达的信息。这类数据获取的难度和标注成本也对多模态情感模型的实际应用有着影响。
最后是情感分析应用场景的问题。在一些场景中,用户需要的不仅仅是“正向”、“负向”这种简单的感情标签,更希望知道感情投射的对象。例如针对句子“虽然服务态度还不错,但我的问题还是没有解决”,对客户来说更加有价值的是给出不同对象的情感分析结果,例如“服务态度-正向;问题没解决-负向”。
我们将在这一部分介绍追一科技在解决上述问题的方法。
轻量级双模态情感分析模型
为了解决模型的性能问题,我们在2020年提出了新的轻量级双模态模型,该模型在IEMOCAP情感分类数据集上取得了【音频+文本】双模态模型的当前最优效果(SOTA),同时发表论文Efficient Speech Emotion Recognition Using Multi-Scale CNN and Attention, icassp 2021,并被世界人工智能语音领域顶会ICASSP(2021)录用,这标志着追一科技多模态情感分析算法能力处于业内领先水平。
具体来说,我们提出基于多尺度卷积和统计池化相结合的方法来进行不同模态的特征抽取以及模态融合。
相对于其它双模态情感模型,我们提出的模型没有使用性能较低的RNN网络及深层卷积网络,也没有利用大型的预训练模型,而是用了简单的单层多尺度卷积提取局部多样性浅层特征,借助平均、最大、标准差池化得到综合的全局统计特征,最终结合特征拼接和Attention机制融合语音和文本特征并作分类。 此外,我们还引入了音频说话人识别中常用的xvector特征做为辅助全局音频特征。模型不仅在效果上赶超已有的最优模型,同时由于浅层CNN结构及高度并行化的模型设计,训练/推理速度也更优。
在模态融合层面,为了保证模型的轻量性同时获得好的模型效果,我们用了基于Attention的Late-Fusion方法,并结合图像领域中常用的多尺度特征:
具体来说,音频信号(MFCC)与文本信号(Word Embedding)分别经过各自的多尺度卷积(MSCNN)与统计池化(SPU)后,再利用Attention机制进行融合,最后辅以xvector进行感情类别的预测。值得指出的是,该方法相比与基于BERT等大型预训练的方法在预测准确率上,有相当大的性能优势。在我们的实际应用场景测试中,该方法比基于BERT的方法分别快5倍(CPU)/2倍(GPU)。
无监督域适应(Unsupervised Domain Adaption)
第二个需要解决的是标注数据量的问题。前文已经分析过,现有模型存在跨域困难的问题,同时由于标注成本高,在实际应用落地中难度较大。 我们尝试找到了一个将已训练模型通过无监督域适应方法迁移到新领域上的方法,使得在新的业务领域上,已有的其它领域模型也能获得不错的初始表现。
域适应的核心思想是:在特征空间上某一度量准则下, 如果能够使得源域与目标域特征分布尽可能接近,那么源域上已经训练好的预测模块可更好地直接用于目标域,从而达到模型跨域迁移的目的。
更进一步地,这个过程我们希望尽量地节约成本,最好是在不需要对新的目标领域数据进行标注的前提下完成。为了完成以上域适应和无监督的目的,我们需要解决以下两个问题:
如何度量源域和目标域特征的相似程度
如何无监督地优化并构建目标域上的模型
针对第一个问题,简单的解决方案是人为设定好度量的metric,例如我们可以用consine距离,L1、L2距离等。但这些毕竟是人为规定的,我们也无法确定哪一种度量最合适。换一种思路,利用神经网络的学习能力,完全可以构建一个网络并让它去学习一个最合适的度量,而我们只需要站在高处对这个度量效果做出简单的指点。这即是基于对抗学习的对抗迁移思想。而站在高处的指点,完全可以依据判段特征是来自源域还是目标域来实现。数学上相当于是实现了用Jensen-Shannon散度(用交叉熵损失)或者Wasserstein距离(用Wasserstein距离损失,又叫推土机距离)做为度量metric。
第二个问题,目标域上的模型构建和优化需要分阶段进行,但是仍然统一在一个模型框架下,简要的步骤为:
2.对抗训练(无监督):
a)复制特征提取网络, 构建判别器 [Gs → Gt, D]
b)循环至稳定:
i.训练m轮D
ii.训练n轮Gs
3.得到目标模型: [Gt + Fs]
为了测试这种无监督域适应的模型迁移效果,我们在多个领域数据上做了测试:
可以看到,在有标注数据的服务商领域上,我们的双模态情感模型二分类效果可达94%的准确率。在三个其它场景中,不做无监督迁移的模型测试结果非常糟糕(迁移前),基本上接近于盲猜。而做了无监督迁移的模型(迁移后)效果较之前有了大幅度提升,这种提升完全是建立在不需标注数据的条件下实现的,在实际应用中有重要意义。
细粒度情感分析
单纯的分类模型只能够给出情感的判断结果而不能给出情感的指向目标,例如: “这个电饭煲非常好用“,得到结果为积极(正向)。而细粒度情感分析则可以在更加精细的维度上给出情感分析的结果,如下图所示:
从上面的例子可以看出,同一句话,在更细的粒度上的情感倾向是可能存在不同的,因此有时候直接给出一句话的整体情感分析结果并不能满足实际使用的需要。为了使模型能够输出细粒度的情感分析结果,我们将此问题看作是一个序列标注问题,这也是细粒度情感分析任务的通常做法。
通常来说,在大型预训练模型的输出上额外增加序列标注的输出模块即可以完成序列标注任务。序列标注的输出模块形式较为灵活,例如采用线性层、RNN、Self Attention或者是CRF等,在这里不再对这些常规的方法做一一介绍。
值得一提的是,这个任务可以用我们提出的Global Pointer方法来解决,因此这里主要介绍如何用Global Pointer来进行序列标注。首先,序列标注的任务是需要识别出文本中的片段位置,并给出该片段的标签。因此对于输入长度为nn的文本,首尾组合一共有n(n+1)/2n(n+1)/2个候选的可能组合。如果该序列中有kk个需要定位的实体,那么该问题则变成了从n(n+1)/2n(n+1)/2个类别中选取kk个目标类的多标签分类问题,可以按照常规的多标签分类方式来解决。而Global Pointer则正是采用了这一简单直观的思路来解决序列标注的问题,这种方式的优势在于在预测过程中,所有实体是一次给出的,并且可以识别出嵌套实体的情况,非常简便快捷。而如果目标实体有mm种标签,那么只需要进行mm次分类,即每种实体标签用一个多标签分类来建模。
依照上面的思路,对于长度为n的序列,通过编码器得到每个位置上的表征[\boldsymbol{h}_1,\boldsymbol{h}_2,\dots,\boldsymbol{h}_n],令s_{\alpha}(i,j)代表序列中第i个位置到第j个位置的片段的实体类型为\alpha的分数,则:
s_{\alpha}(i,j)=\boldsymbol{q}^{\intercal}_{i,\alpha}\boldsymbol{k}_{j,\alpha} \\
其中\boldsymbol{q}_{i,\alpha}=\boldsymbol{W}_{q,\alpha}\boldsymbol{h}_i+\boldsymbol{b}_{q,\alpha},\boldsymbol{k}_{j,\alpha}=\boldsymbol{W}_{k,\alpha}\boldsymbol{h}_j+\boldsymbol{b}_{k,\alpha}。我们采用自研的多标签分类损失作为最后的优化目标:
\begin{equation}\log \left(1 + \sum\limits_{(i,j)\in P_{\alpha}} e^{-s_{\alpha}(i,j)}\right) + \log \left(1 + \sum\limits_{(i,j)\in Q_{\alpha}} e^{s_{\alpha}(i,j)}\right)\end{equation} \\
其中P_{\alpha}是该样本的所有类型为\alpha的实体的首尾集合,Q_{\alpha}是该样本的所有非实体或者类型非\alpha的实体的首尾集合,注意我们只需要考虑i\le j的组合,即
\begin{aligned} \Omega=&\,\big\{(i,j)\,\big|\,1\leq i\leq j\leq n\big\}\\ P_{\alpha}=&\,\big\{(i,j)\,\big|\,t_{[i:j]}\text{是类型为}\alpha\text{的实体}\big\}\\ Q_{\alpha}=&\,\Omega – P_{\alpha} \end{aligned} \\
另外需要指出的是,在进行分数计算的时候,由于需要考虑到q与k的位置关系,因此我们在这一步中加入了自研的旋转位置编码。旋转位置编码的加入可以大大提升Global Pointer的最终效果。
我们在不同的领域对细粒度情感分析方法进行了测试,效果如下:
上图为生活服务领域的效果。可以看出细粒度情感分析可以明确给出客户反馈中,针对不同对象的感情效果,下面的图是电商领域的效果。
结语
追一科技的情感分析解决方案无论是模型还是落地方案上都在业内处于领先水平,包括解决基于音频和文本双模态场景下的服务质检问题,冷启动数据量不足的问题,以及需要获得细粒度情感信息的场景。同时我们也正在积极地探索其它场景,例如数字人场景中的人机交互多模态情感判读,多轮对话中上下文相关的情感分析等。在场景结合算法的丰富组合下,更多的情感分析解决方案将被用来更好地解决更多样的实际问题,对此,我们将始终努力走在技术和应用的前沿。