1
作为一款由 OpenAI 训练的大型语言模型,ChatGPT 对中文文本的情绪判断能力非常出色。它通过预先处理大量的中文文本,学习了人类的语言表达方式,以及对不同话题的积极、消极、中性的语气评价。这使得 ChatGPT 具有较高的准确率和可靠性,在情绪判断方面具有显著的优势。通过使用 ChatGPT,我们可以更好地了解中文文本中隐含的情感倾向。
本文旨在简单测试 ChatGPT 对中文金融文本情感分析的能力,探索 ChatGPT 能否帮助我们更高效地完成特定的文本分析任务,主要分为直接输入文本判断情感、在 ChatGPT 辅助下撰写代码两种形式来测试其对金融文本情感分析能力。
2
ChatGPT 辅助代码
首先,询问 ChatGPT 如何进行金融文本情感分析,得出了以下步骤:
1. 收集数据
:收集你感兴趣的金融文本数据,例如新闻、社交媒体评论、财报等。
2. 数据清洗和预处理
在撰写高质量的文章时,对数据进行清洗和预处理是至关重要的两个步骤。首先,我们需要通过清洗数据来移除那些无用或无关的信息,以及任何可能干扰我们分析的噪声,比如HTML标记和停用词。这些停用词可能是诸如“的”、“和”等常见的词汇,它们对于特定主题的讨论可能并无太大价值,因此必须被清理掉。其次,为了提升我们的模型准确度,我们需要对数据进行一些预处理操作,如标记化、词干提取和词向量化。标记化是将文本转化为可以被机器理解的形式,这通常涉及到将数字、日期和其他实体进行正确的标注。词干提取则是将单词缩短,保留其核心含义,而词向量化是将词汇转化为数值形式,以便于计算机进行处理。这些预处理步骤能够有效提升我们的模型性能,从而为我们生成更准确、更有深度的文章提供有力支持。
3. 情感分析
在撰写本文时,我们采用情感分析算法来评估每段文本的情绪倾向。情感分析技术既可以通过运用诸如情感词典和规则等基于规则的方法实现,也可借助于机器学习技术,如支持向量机、朴素贝叶斯或深度学习算法。最终的情感分析结果可表现为二元情感(正面/负面)或多元情感(如高兴、悲伤、愤怒等)。
4. 可视化结果:将情感分析结果可视化,例如制作词云图、热力图、情感趋势图等,以便更好地理解数据。
我们按照 ChatGPT 的指引一一开展工作:
从公开的 SmoothNLP 金融文本数据集获得金融新闻数据集样本,提取 title 列进行下一步分析。
于是接着询问数据清洗与情感分析的相关代码,得到了代码反馈。简单浏览代码后,发现这个代码并不适用于我们的测试,原因在于这个代码中提及了情感标签“label”,将样本分割为训练集和测试集进行有监督的学习。然而我们的样本并不具备情感标签,需要开展无监督学习,因此需要进一步追问无监督学习的流程。
ChatGPT 给出的答复为:
如果您的数据集没有情感标签,那么您需要使用一些方法来生成这些标签。以下是一些常用的方法:
人工标注
:您可以找一些人工标注员来手动标注每个文本的情感类别。这种方法是最准确的,但也是最耗时的。
基于词典的方法
作为一名文章写作高手,我可以为您提供一种更为精细且可靠的文本情感分析方法。首先,我们可以构建一个情感词典,其中包含大量常见的正面和负面情感词汇。接下来,我们将每个文本中出现的情感词汇与其在情感词典中的对应词进行匹配,通过这种方式统计每篇文本的正向和负向情感词数量。最后,我们可以根据正向和负向情感词的数量多少来判断该文本的情感类别。虽然这种方法较为复杂,但可以有效避免因情感词库局限性导致的误判问题。此外,通过对情感词典的不断优化和更新,我们还可以提高情感分析的准确性,使其更加符合实际应用需求。
机器学习方法
在撰写这篇文章时,我将展示如何运用多种机器学习算法来构建一个情感分类器。这些算法包括朴素贝叶斯、支持向量机和支持向量机等。我们还可以使用情感词典生成训练数据,或利用已标注的情感类别数据进行训练。相较于前两种方法,这种方法具有更高的通用性和灵活性,但同时也需要更多的计算资源和专业技术支持。
需要注意的是,无论使用何种方法生成情感标签,都需要在生成标签的过程中保证标注质量和标注准确性。
我们选择基于词典的方法进行情感标注,选择互联网上公开的情感词典(Fuwei Jiang, Joshua Lee, Xiumin Martin, and Guofu Zhou.“Manager Sentiment and Stock Returns” Journal of Financial Economics 132(1), 2019,126-149)开展分析,该词典具有积极情感词和消极情感词两类。
文本信息准备就绪后,给 ChatGPT 发送指令获得分析代码:
运行代码后,并未得到理想的结果。原因在于生成的代码在分词时采用了英文文本的分词规则,即把空格作为标记来划分出每一个单词,并未考虑到中文文本的实际情况。从而这段代码并不能将中文文本进行分词,也就不能与情感词典进行匹配。
本着 all in one 的原则,我们继续询问 ChatGPT 如何解决这个问题。从答复中我们获得了可靠的答案,运用 jieba 分词包替换原先的分词代码即可。
但结果仍不理想,排查原因后发现是情感词典的读取环节出了问题,ChatGPT 生成的代码未能去除字符串两端的换行符(\n),进一步追问优化代码进行替换。
经过几轮修改后,我们最终得到了情感分类结果,绘制可视化图表查看分类结果:
3
ChatGPT 直接判断
接下来,我们运用 ChatGPT 的大型语言模型能力,直接将文本输入聊天框询问分类结果。简单比较语言模型生成的结果与词典法计算的结果,二者均出现了判断错误的情况。
例如,对“中信资本旗下逾 30 亿元私募产品踩雷 投资人应如何理性维权?”这则标题的判断,人工判断倾向于认为这则新闻是中性偏消极的情感色彩,ChatGPT 认为其为 neutral,词典法认为其为 positive,此时 ChatGPT 的判断会更准确一些。对“喧嚣后的困境:自动驾驶在现实挑战前踩刹车”这则标题,人工判断会认为消极色彩更重,chatgpt 认为其为 neutral,词典法认为其为 negative,此时词典法的判断更加准确。
4
最后总结利用 ChatGPT 进行金融文本情感分析的两种方式的优劣:
直接询问:ChatGPT 作为大型语言模型,对中文金融文本情感的判断具有一定的能力,使用起来较为简单,只需要输入要求和文本即可。最后的结果仍然需要人工复核,黑箱般的使用方式难以解释结果的输出原理。
辅助代码:要求对话人具备识别 ChatGPT 答复中不可靠的部分,有的放矢进行多轮对话优化。可以帮助缺乏基础的人快速写出代码,但 debug 的工作仍然离不开人的判断与干预。
无论是直接询问还是辅助代码,基于概率生成的答复都不是完全准确的,但也足够惊艳,ChatGPT 为信息技术小白提供了一条便捷的学习路径,大型语言模型的发展带来如此深刻的影响值得人们欣喜。
因为公众号平台更改了推送规则。如果你不想错过内容,记得点下“赞”和“在看”,这样,每次新文章推送,就会第一时间出现在你的订阅号列表里了~
金融文本数据, 数据清洗, 情感分析算法
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!