大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景

155 0 0

文章主题：大型语言模型, zero-shot learning, few-shot learning, Sentiment Analysis

深度学习自然语言处理原创（头图与标题参考知乎张义策）作者：qazw

引言

🎉近几年，LLMs如GPT-3、PaLM及GPT-4引领了NLP浪潮，特别是在零样本和少样本场景中展现出超凡实力，让AI领域为之震撼！🌍对于情感分析(SA)这一关键领域，LLM的应用已成为不争的事实。然而，如何选对LLM，以满足SA任务的特殊需求，仍是当前的一大挑战。🔍

大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景

论文

📊🚀 In the realm of massive language models, sentiment analysis 🤝holds the key to unlocking the emotional pulse of digital conversations. It’s a game-changer that’s not just about analyzing text, but understanding the nuances and complexities lurking beneath. With the advent of these advanced AI tools, we’re no longer in the realm of surface-level sentiment – it’s a whole new ballgame 🎲. Let’s dive into why this technology is more than just a buzzword and how it’s reshaping our analysis strategies. 🔍✨

地址

：https://arxiv.org/pdf/2305.15005.pdf

代码：https://github.com/DAMO-NLP-SG/LLM-Sentiment

这篇工作调查了LLM时代情感分析的研究现状，旨在帮助SA研究者们解决以下困惑：

LLM在各种情感分析任务中的表现如何？与在特定数据集上训练的小模型(SLM)相比，LLM在zero-shot和few-shot方面的表现如何？在LLM时代，当前的SA评估实践是否仍然适用？

实验

实验设置

1、调查任务和数据集

该工作对多种的SA任务进行了广泛调查，包括以下三种类型任务：情感分类(SC)、基于方面的情感分析(ABSA)和主观文本的多面分析(MAST)。大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景

2、基线模型

Large Language Models (LLMs) LLM将直接用于SA任务的推理而没有特定的训练，本文从Flan模型家族中选取了两个模型，分别是Flan-T5(XXL版本，13B)和Flan-UL2(20B)。同时，采用了GPT-3.5家族两个模型，包括ChatGPT(gpt-3.5-turbo)和text-davinci-003(text-003，175B)。为了正确性预测，这些模型的温度设置为0。

Small Language Models (SLMs) 本文采用T5(large版本，770M)作为SLM。模型训练包括全训练集的方式和采样部分数据的few-shot方式，前者训练epoch为3而后者为100。采用Adam优化器并设置学习率为1e-4，所有任务的batch大小设置为4。为了稳定对比，为SLM构造3轮不同随机seed的训练，并采用其平均值作为结果。

3、Prompting策略

大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景 SC,ABSA,和MAST的提示实例。虚线框为few-shot设置，在zero-shot设置时删除。

🌟为了深入研究LLM的广泛适用性，本文采用了一套标准化的prompt体系，确保其简洁明了且直接易懂。🚀对于零样本学习，我们精简至仅包含任务名、定义和预期格式三个核心要素，而对于有限样本场景（few-shot），每个类别额外配备了\(k\)个实例，以提供更全面的观察视角。📝

实验结果

1、Zero-shot结果 大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景对于LLM，直接将其用于测试集上进行结果推理。对于SLM，先将其在完整训练集上fine-tuned然后再用于测试，从上图结果中可以观测到：

LLM在简单SA任务上表现出强大的zero-shot性能 从表中结果可以看到LLM的强大性能在SC和MAST任务上，而不需要任何的前置训练。同时也能观察到任务稍微困难一点，比如Yelp-5(类目增多)和，LLM就比fine-tuned模型落后很多。

更大的模型不一定导致更好的性能 从表中结果可以看到LLM对于SC和MAST任务表现较好，而且不需要任何的前置训练。但是也能观察到任务稍微困难一点，比如Yelp-5(类目增多)，LLM就比fine-tuned模型落后很多。

LLM难以提取细粒度的结构化情感和观点信息 从表中中间部分可以看出，Flan-T5和Flan-UL2在ABSA任务根本就不适用，而text-003和ChatGPT虽然取得了更好的结果，但是对于fine-tuned的SLM来说，依然是非常弱的。

RLHF可能导致意外现象 从表中可以观察到一个有趣现象，ChatGPT在检测仇恨、讽刺和攻击性语言方面表现不佳。即使与在许多其他任务上表现相似的text-003相比，ChatGPT在这三项任务上的表现仍然差得多。对此一个可能的解释是在ChatGPT的RLHF过程与人的偏好“过度一致”。这一发现强调了在这些领域进一步研究和改进的必要性。

2、Few-shot结果 大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景本文采用了手中K-shot的设置：1-shot, 5-shot, 和10-shot。这些采样的实例分别作为LLM上下文学习实例以及SLM的训练数据。可以有如下发现：

在不同的few-shot设置下，LLM超越SLM 在三种few-shot设置中，LLM几乎在所有情况下都始终优于SLM。这一优势在ABSA任务中尤为明显，因为ABSA任务需要输出结构化的情感信息，SLM明显落后于LLM，这可能是由于在数据有限的情况下学习这种模式会变得更加困难。

SLM通过增加shot在多数任务性能得到持续提升 随着shot数目的增加，SLM在各种SA任务中表现出实质性的提升。这表明SLM能有效利用更多的示例实现更好的性能。任务复杂性也可以从图中观察到，T5模型用于情感分类任务性能逐渐趋于平稳，然而对于ABSA和MAST任务，性能继续增长，这表明需要更多的数据来捕捉其基本模式。

LLM shots的增加对不同任务产生不同结果 增加shot数目对LLM的影响因任务而异。对于像SC这种相对简单的任务，增加shot收益并不明显。此外，如MR和Twitter等数据集以及立场和比较任务，甚至随着shot的增加，性能受到阻碍，这可能是由于处理过长的上下文误导LLM的结果。然而，对于需要更深入、更精确的输出格式的ABSA任务，增加few数目大大提高了LLM的性能。这表明更多示例并不是所有任务的灵丹妙药，需要依赖任务的复杂性。

SA能力评估再思考

呼吁更全面的评估 目前大多数评估往往只关注特定的SA任务或数据集，虽然这些评估可以为LLM的情感分析能力的某些方面提供有用见解，但它们本身并没有捕捉到模型能力的全部广度和深度。这种限制不仅降低了评估结果的总体可靠性，而且限制了模型对不同SA场景的适应性。因此，本文试图在这项工作中对广泛的SA任务进行全面评估，并呼吁在未来对更广泛的SA工作进行更全面的评估。

呼吁更自然的模型交互方式 常规情感分析任务通常为一个句子配对相应的情感标签。这种格式有助于学习文本与其情感之间的映射关系，但可能不适合LLM，因为LLM通常是生成模型。在实践中不同的写作风格产生LLM解决SA任务的不同方式，所以在评估过程中考虑不同的表达以反映更现实的用例是至关重要的。这确保评估结果反映真实世界的互动，进而提供更可靠的见解。

prompt设计的敏感性 如图所示，即使在一些简单的SC任务上，prompt的变化也会对ChatGPT的性能产生实质性影响。当试图公平、稳定地测试LLM的SA能力时，与prompt相关的敏感性也带来了挑战。当各种研究在一系列LLM中对不同的SA任务使用不同的prompt时，挑战被进一步放大。与prompt相关的固有偏见使采用相同prompt的不同模型的公平对比变得复杂，因为单个prompt可能并不适用于所有模型。

大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景

为了缓解上述评估LLM的SA能力时的局限性，本文提出了SENTIEVAL基准，用于在LLM时代进行更好的SA评估，并利用各种LLM模型进行了再评估，结果如图所示。大型语言模型下情感分析：零到几步，LLM实力如何？探究LLM在SA领域的现实挑战与未来前景

总结

🌟使用LLM进行深入SA任务评估是一项关键发现，它揭示了这些AI模型在解决特定问题上的才能和挑战。🔍结果显示，尽管LLMs在零样本任务中表现出色，但在复杂任务面前，它们的能力并非无懈可击。相比之下，在有限标注的环境中（Few-shot），LLMs展现出了显著优势，预示着他们在资源受限时的适应性。💡然而，评估方法的进步是必要的，当前实践的局限性不容忽视。SENTIEVAL基准的引入，犹如一盏明灯，为更全面、更贴近实际的SA能力评估提供了可能。它不仅提升了评估的精确性和可靠性，还有助于我们更好地理解LLMs在真实场景中的表现，从而优化算法和提高整体性能。🚀让我们期待这个新工具能引领未来SA研究的新篇章，共同探索AI在SA领域的无限可能。

🌟大型语言模型（LLMs）正在革新情感分析领域，开启前所未有的探索之旅！📊尽管一些基础SA任务已接近人类水平，但理解和捕捉复杂的人类情绪、观点与主观体验仍充满挑战。🔍LLMs的超凡文本解析能力为情感分析的研究注入了强大动力和无限可能，引领我们朝着更深入的情感理解迈进。🔥

进NLP群—>加入NLP交流群