探究幽默本质：ACL2021论文深度解析，情感分析、风格与理论新突破

AI与情感2yrs ago (2024)update lida

125 0 0

文章主题：ACL 2021, 情感分析, 风格分析, 分类依据

666ChatGPT办公新姿势，助力做AI时代先行者！

作者：赵丽敏

转载自：复旦DISC

原文链接：

论文分享 | ACL 2021 情感分析mp.weixin.qq.com/s/M2vjDmeu6eXPokKHWwn0aw

引言

🏆🚀 ACL 2021 高手解析！🚀🏆🔥 热门论文深度解析来啦！今天，带你领略情感与风格的智慧世界！🔥📝 第一篇，情感分析领域的创新突破！特征值视角下，作者独辟蹊径，用【隐秘代码】构建分类模型，提升情感理解力！🔍📝 第三篇，风格大师的秘籍！通过交叉风格数据集的魔力，打造了一把解锁文本多样性的钥匙！🔑🔥 第二篇，分布式表示大放异彩！新式情感表达法，像拼图一样清晰展现不同情绪间的微妙关系，让分类更精准！🧩每一篇论文都蕴含着AI领域的前沿思考，让我们一起探索这些智慧的火花，提升你的知识库吧！📚记得关注我们，获取更多学术动态和深度解析哦！👋#ACL2021 #情感分析 #风格分析 #分布式表示 #AI研究

文章概览

1. 不确定性和惊讶值共同传递妙语：基于不协调的特征进行幽默识别（Uncertainty and Surprisal Jointly Deliver the Punchline: Exploiting Incongruity-Based Features for Humor Recognition）

论文地址：https://aclanthology.org/2021.acl-short.6/

🏆🔍揭示幽默真谛！🚀幽默识别，这个热门研究领域，一直在探索文本背后的奥秘。然而，多数研究仍未能触及幽默的核心——颠覆预期的魔力。💡作者独辟蹊径，提出创新的”不协调理论”，将幽默精髓归功于对期待的戏剧性反转。🎉在这个理论框架下，每个幽默故事就像一场精心编排的双簧：Set-up，悄悄播下期待的种子；Punchline，瞬间打破平衡，带来意外的惊喜。👀作者巧妙地将这一理论与先进的GPT-2模型相结合，提炼出两个关键指标——Uncertainty（不确定性）和Surprisal（意外性）。这两个”笑点探测器”，犹如魔法棒，让模型对幽默文本的识别力大增！✨实验结果令人振奋：通过这些特征值的引导，模型对幽默的理解与分类能力显著提升。🎉 若要深入理解并运用这一理论，不妨一探究竟，开启你的幽默解读之旅吧！🚀#幽默识别 #不协调理论 #GPT-2模型 #语言模型优化

2. 情感空间中情感类别的分布式表示（Distributed Representations of Emotion Categories in Emotion Space）

论文地址：https://aclanthology.org/2021.acl-long.184/

🌟🚀原文改写：在情感检测领域，尽管常见的情感分类通常采用 one-hot 编码，但这手法忽视了情感间的内在关联性。本文创新性地提出了一种通用的分布式表（DR）构建框架，专为情感分类数据中的类别分布优化设计。实证研究表明，相较于传统的词向量表示，情感空间中的DR能更精准地揭示各类情感间独特且紧密的联系与区别。🚀🌟

3. 风格不是单一变量：跨风格语言理解案例研究（Style is NOT a single variable: Case Studies for Cross-Stylistic Language Understanding）

论文地址：https://aclanthology.org/2021.acl-long.185/

🔥掌握文本灵魂的秘密在于风格的多维度交织——从情感的温润到隐喻的深邃，每个元素都是构建独特语境的砖瓦。要完整解读文本，我们必须洞察这些风格元素如何相互作用与共变，这就是交叉风格语言理解的挑战所在。🌟🚀为满足这一需求，我引荐了最新且权威的资源——xSLUE，一个集大成者，它汇集了现有的数据宝库，并创新性地打造了一款专为句子级跨风格理解量身定制的语料库。在这个语料库中，15种各具特色的风格交织于同一文本，包括比喻、个人、情感和人际互动四个理论领域。🌟📚基于xSLUE，我设计并训练了一个全能型交叉风格分类器，它能将各种风格融合，进行深度学习。然后，我们进行了三个引人入胜的实践探索：交叉风格文本分类、揭示风格间的关联性以及生成条件下的独特风格文本。🔥通过这些案例研究，不仅验证了模型的有效性，也为我们揭示了语言风格世界的奥秘。无论你是语言学者还是数据爱好者，xSLUE都是你理解和驾驭文本风格的强大工具。🚀

数据概览

🌟SemEval 2021, the ultimate challenge in natural language processing! 🚀Task 7 is all about detecting humor in tweets and short jokes – a linguistic prowess test that’ll tickle your funny bone! 😆Join the laughter fest with #SemEval21 and dive into the realm of humor classification. This exciting Kaggle competition seeks to classify whether a given social media post or snippet is genuinely humorous or just a dry joke. 🤣Want to brush up on your sentiment analysis skills? This task offers a golden opportunity to refine your ability to detect the subtle nuances that make a joke tick! 🎩Don’t miss out on the chance to contribute to the science of humor and boost your data science portfolio with some hilarious insights. 📈欲知详情，访问Semaphore’s official platform for all the latest updates, rules, and guidelines. Let’s laugh together in the digital realm! 🤝Remember, privacy is our top priority, so no need to worry about sharing contact details or promoting yourself here. Just focus on delivering the humor! 😄

🌟Transforming Emotional Expressions: Enhancing the Power of GoEmotions 📈Unleash the depth and complexity of English Reddit comments with GoEmotions, a cutting-edge sentiment analysis tool that delves into 27 diverse emotional categories. 🤝 Dive into the vibrant world of online discourse where every post holds a treasure trove of human emotions.GoEmotions, built on the foundation of advanced natural language processing (NLP), skillfully mines the rich data from popular English subreddits to provide nuanced and multi-labeled insights. 🧠 By analyzing the subtle nuances in language, it unravels the intricate tapestry of feelings, enabling users to better understand user sentiment and tailor their responses accordingly.Experience a new level of emotional intelligence with GoEmotions, perfect for marketers, researchers, and anyone seeking to harness the power of social media conversations. 🚀 Whether you’re monitoring brand reputation or tracking public opinion, this tool offers unparalleled accuracy and insights.Embrace the future of emotion analysis and join the ranks of those who can decode the ever-evolving emotional landscape of Reddit. 🌍欲了解更多关于GoEmotions如何提升情感分析效率和效果的信息，请访问我们的官方网站[替换为相关链接]，或直接私信我们获取专业咨询。 📲#GoEmotions #SentimentAnalysis #RedditComments #EmotionalCategories

xSLUE: individual style dataset and cross-style diagnostic set for cross-style language understanding and evaluation

论文细节

1

动机

幽默识别一般被视为文本二分类问题，之前的研究一般采用统计机器学习和神经网络的方法在幽默数据集上训练模型，没有尝试将幽默理论运用到幽默识别中。为了进一步提高幽默文本分类效果，本文从幽默的不协调理论出发，将幽默理论与大规模预训练语言模型结合起来去辅助分类器进行幽默文本分类识别。

模型

1. GPT-2 语言模型

幽默的不协调理论将一段文本分为 set-up 和 punchline 两个阶段，由于神经网络的崛起，预训练的语言模型可以在一个很大的数据集上学习这两个阶段之间的关系。在给定 set-up（x）后，语言模型可以续写出期待的后续（y），通过比较真实的 punchline 和语言模型生成的 y，我们就可以定量衡量这段文本的不协调程度。

作者将 set-up 和 punchline 拼接之后输入预训练的语言模型 GPT-2，根据模型输出的概率分布计算这段文本的两个特征值：Uncertainty 和 Surprisal。

2. Uncertainty

作者用概率分布的平均熵来表示 Uncertainty。这里的 $V$ V 代表整个词典， $viw$ v_{i}^{w} 指模型第 $i$ i 个输出为词典中的单词 $w$ w 的概率，然后用这个熵的公式去遍历一轮词典中所有的词，就得到了第 $i$ i 个输出的 Uncertainty, 接着将所有输出的 Uncertainty 的值相加并除以输出的个数，就得到了这段文本的 Uncertainty。

$U(x,y)=-1|y|\sumi=1n\sumw\inVviwlogviw$ U(x, y)=-\frac{1}{|y|} \sum_{i=1}^{n} \sum_{w \in V} v_{i}^{w} \log v_{i}^{w} \\

2. Surprisal

Surprisal 可以反映语言模型生成真实 punchline 的概率：该概率越大，Surprisal 的值越小。Surprisal 被定义为:

$S(x,y)=-1|y|logp(y∣x)=-1|y|\sumi=1nlogviyi$ \begin{aligned} S(x, y) &=-\frac{1}{|y|} \log p(y \mid x) \\ &=-\frac{1}{|y|} \sum_{i=1}^{n} \log v_{i}^{y_{i}} \end{aligned} \\

这里的 $V$ V 代表整个词典， $viyi$ v_{i}^{y_{i}} 指模型第 $i$ i 个输出为真实值 $yi$ y_{i} 的概率。

实验

为了让数据集更适用于文章提出的幽默框架，作者只考虑其中正好含有两个句子的正例（笑话），和至少含有两个句子的反例（非笑话）。这样第一个句子就是 set-up，第二个句子就是 punchline。然后作者用支持向量机分类器检测单个特征（Uncertainty / Surprisal）以及联合特征（U+S）在区分笑话上的有效性。实验结果见下表。相较于 baseline，作者提出的这两个特征在 4 个评价指标上表现都更加优异，而这两者联合起来之后模型的分类效果达到了最优值。

接着，作者构建了一个基于内容的分类器，来验证特征和词向量结合后的有效性。作者用 glove 预训练的词向量将 set-up 和 punchline 转换成 50 维向量的表示形式（具体做法为：将每一个单词的词向量在各个维度上对应相加求和并根据长度做归一化），并将这两部分的向量拼接起来，用 100 维的向量去表达这段文本。然后将两个特征值附加在这个 100 维的向量后面，用 SVM 支持向量机进行分类，结果如下图。可以看到 glove 词向量和单独的特征结合就可以提升模型的分类性能，而词向量和两个特征结合之后模型获得了最大的性能提升，说明作者给出的这两个特征值（Uncertainty / Surprisal）可以很好的区分幽默文本与非幽默文本。

2

动机

情感分类是文本情感分析领域非常重要的一项任务，但是在现有的研究中，情感类别通常被表示为 one-hot 向量形式，这种表示方式无法体现情感类别之间的关联。因此，为了更好的表达情感关系，本文提出了情感类别的分布式表示（Distributed Representations, DR）。

模型

以类别 $K$ K 为例，为了获得类别 $K$ K的分布式表示，第一步需要计算数据集中类别 $K$ K对应的所有样本的分布式表示；第二步根据样本的分布式表示计算出类别 $K$ K的分布式表示。

1. 样本的分布式表示

样本输入进神经网络之后，模型的输出值是一个 soft label，这个向量在第 $i$ i 维的值代表样本属于第 $i$ i 个类别的概率，在本次任务中，作者使用 soft label 作为样本的分布式表示（Distributed Representations, DR）。

2. 情感类别的分布式表示

以类别 $K$ K 为例, 在第一步中, 我们得到了所有被标注为类别 $K$ K 的样本的 DR: $(V1,V2,\dots,VN)$ \left(\boldsymbol{V}_{1}, \boldsymbol{V}_{2}, \ldots, \boldsymbol{V}_{N}\right), 类别 $K$ K 的 DR (用 $V$ V 表示) 需要满足它和对应样本的 DR 距离和最小:

$V=argminVLoss(V;V1,V2,\dots,VN)$ \boldsymbol{V}=\underset{\boldsymbol{V}}{\operatorname{argmin}} \operatorname{Loss}\left(\boldsymbol{V} ; \boldsymbol{V}_{1}, \boldsymbol{V}_{2}, \ldots, \boldsymbol{V}_{N}\right) \\

最小二乘损失来定义距离:

$Loss(V;V1,V2,\dots,VN)=\sumi‖V-Vi‖2$ \operatorname{Loss}\left(\boldsymbol{V} ; \boldsymbol{V}_{1}, \boldsymbol{V}_{2}, \ldots, \boldsymbol{V}_{N}\right)=\sum_{i}\left\|\boldsymbol{V}-\boldsymbol{V}_{i}\right\|^{2} \\

损失函数对 $V$ V 求导并令导数为 0 即可求得 $V$ V 的最优解： $V=1N\sumiVi$ V=\frac{1}{N} \sum_{i} V_{i}, 因此, 情感类别 $K$ K 的 $DR$ D R 在形式上就是所有被标注为类别 $K$ K 的样本的 $DR$ D R 的均值。

实验

实验所使用的数据集（GoEmotions）共含有 27 个情感类别，这些类别按照不同的分类标准有两种划分形式：

三种态度：Positive / Negative / Ambiguous六个基类：Anger / Disgust / Fear / Joy / Sadness / Surprise

在实验阶段，作为对照，作者用每一个情感类别对应的词向量作为其在语义空间中的向量表示，文中一共使用了三种词向量：GloVe / SSWE / EWE。作为对 GloVe 的改进版本，SSWE 和 EWE 将词的情感信息也编码进了词向量中。

接着作者对不同情感类别的分布式表示（DR）和词向量表示进行了降维可视化的处理。可以发现，词向量表示的情感类别，三个大类之间没有明显的界限，但是分布式表示中，这三类可以被两条线很明显的分开，这表明分布式表示可以很好的区分不同类别的情感词汇。在情感空间中，情感态度相似的词会更容易聚集在一起。

第二个实验是 Mapping 实验，任务是将 21 个情感类别划分到 6 个情感基类中。对每一个情感类别，我们需要从 6 个情感基类中选择一个和它最相近的词作为我们的输出结果，相似程度以余弦相似度（Cosine Similarity）表征，结果如图：

Human 列是人为标注的正确答案，如果标错在图中显示红色。比较语义空间的词向量和情感空间的分布式表示（DR）在这个任务上的正确得分，可以发现，情感的分布式表示可以更好的完成相似情感类别的映射任务，可以更好的展现情感类别之间的关联。

最后，为了衡量不同语料库中情感关系（Emotion Relation）的一致性，作者计算了不同数据集情感类别的 DR 间的余弦相似度，由结果知情感类别的分布式表示（DR）所展现出来的不同情感类别之间的 boundaries 和 relations 是不因数据集而异的。

3

动机

现有的文本风格研究主要针对的是单一风格，但是风格并不是单一变量，而是多个变量共同变化形成的，仅仅关注单一风格会忽略风格的相关性。为了全面的理解文本的风格以及不同风格之间的依赖关系，作者构建了新的交叉风格数据集并尝试去回答下面三个问题：

一段文本中的风格是如何共同变化的？哪些风格之间会相互依赖？不同风格如何系统的组合以产生恰当的文本？

模型

为了进行比较全面的风格研究，作者构建了一个新的数据集：xSLUE。这个数据集中包含 15 个单一风格的数据集和 1 个交叉风格的数据集（交叉集）。这 15 种风格可以根据不同的社会目标分为四个大组：个人组，情感组，比喻组，人际交往组。

交叉集就是在同一样本上标注所有 15 种风格的标签，如下图所示。

实验

1. 交叉风格文本分类

在交叉风格文本分类中，作者构建了两个分类器：单一风格分类器和交叉风格分类器（如下图）。

单一风格分类器在单一风格的数据集上进行训练；而交叉风格分类器在多种不同风格的数据集上进行共同训练，它的输入不再是一个简单的句子，而是很多来自不同风格文本的组合，它们打包之后输入基于编码器 – 解码器的分类模型，模型最终输出一组 style label，每一个 label 都对应着输入中的一个句子。

单一风格分类器属于判别式模型, 对 p(y \mid X) 条件概率分布进行建模; 交叉风格分类器属于生成式模型, 对 p(X, y) 联合概率分布进行建模。

这两类分类器在对应的训练集上训练完成之后，作者用单一风格数据集的测试集和交叉集分别对模型性能进行评估，结果如下图所示，图中的得分均为 F1 值。

由结果可知，不论是用单一风格数据集的测试集还是用交叉集进行评估，交叉风格分类器在 15 类风格分类任务中的平均得分都要高于单一风格分类器，说明对多风格样本的共同学习可以显著提高模型在风格分类任务中的性能。

2. 风格关联性研究

为了探究不同风格之间的相关性，作者从推特上抓取了一百万条推文，用交叉风格分类器预测这些推文所属的 style label，然后对这些 label 进行皮尔森相关性分析，得到下图所示的相关性矩阵。通过总结高度相关的风格，作者发现了一些常见的风格集群，例如 Positive 和 Feeling bad。实验证明一些特定风格之间的相关性要比和其他风格之间的相关性高，当某种风格发生变化时，与之相关的其他风格很大概率也会发生变化。

3. 条件风格文本生成

第三个实验是条件风格文本生成实验。将交叉风格分类器和预训练生成器结合就组成了条件风格生成器。在给定 Style 时，生成单词 x 的概率正比于p(x)和 p(\alpha|x) 的乘积。

为了探究分类器的性能和生成质量之间的关系，作者通过提前停止的策略降低分类器的分类效果，并用这个没有迭代完全的分类器（利用前面的公式）生成指定风格的文本，并人工评估文本的质量。评估指标有三个：Style appropriateness （生成的文本是否符合指定的风格） / Consistency with prompt （生成的文本和开头的连贯性）/ Coherence（整体的一致性）。可以看到，随着迭代次数的增加（即分类器性能的提升），生成文本的质量也在稳步提高（eg. 3.04 \rightarrow 3.83）。也就是说，更好的分类性能可以带来更好的条件风格文本生成质量。

机器学习/深度学习算法/自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群！想要进交流群进行学习的同学，可以直接加我的微信号：HIT_NLP。加的时候备注一下：知乎+学校+昵称（不加备注不会接受同意，望谅解），想进pytorch群，备注知乎+学校+昵称+Pytorch即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学，交流氛围非常好。

强烈推荐大家关注机器学习算法与自然语言处理账号和机器学习算法与自然语言处理微信公众号，可以快速了解到最新优质的干货资源。

No comments

No comments...