含表情符号推文的情感分析
1 研究背景与前期工作
在社交媒体数据的情感分析领域,众多学者开展了相关研究。G. Gautam 等人在 2014 年基于 Twitter 数据,提出结合语义分析与多种机器学习技术来识别句子和产品评论。他们利用标注的 Twitter 数据集评估大量评论,先对数据集进行预处理,提取有意义的形容词作为特征向量,再结合基于语义方向的 WordNet 以及朴素贝叶斯、最大熵和 SVM 等机器学习分类技术,发现基于一元模型的 SVM 表现优于单独的 SVM,朴素贝叶斯技术优于最大熵。
2020 年,Y. Chandra 等人收集推文数据,通过机器学习分类器处理,采用投票分类程序确定推文类别和置信度,用极性分类法计算正负推文比例,还提出用于推文分类的深度学习模型,如 RNN、LSTM 和 CNN RNN 等,结果显示深度学习模型优于机器学习方法。
2021 年,Naresh 等人提出基于优化的机器学习技术对 Twitter 数据进行分类,分为数据收集与预处理、特征优化、使用不同机器学习技术分类三个阶段,其中顺序最小优化结合决策树的方法准确率高达 89.47%。
2 研究方法概述
本研究旨在评估推文情感,判断其正负性,采用了 XGBoost、LinearSVC、Logistic Regression 和 BernoulliNB 等分类方法,以实现对单条推文情感的高精度分类。研究主要包括以下步骤:
1. 数据收集
2. 数据集预处理
3. 模型训练
4. 结果验证
5. 结果与推断
2.1 数据收集
使用的数据集是 sentiment
超级会员免费看
订阅专栏 解锁全文
25

被折叠的 条评论
为什么被折叠?



