印英混合语情感分析与讽刺检测及犯罪数据在线监督学习框架
印英混合语情感分析与讽刺检测
在自然语言处理领域,对印英混合语(Hinglish)文本的情感分析和讽刺检测是具有挑战性但又十分有意义的任务。此前已有许多相关研究,但都存在一定的局限性。
一些研究对印地语评论进行了积极、消极和中性的分类,但未能处理社交媒体上大量的印英混合语电影评论。Kaur等人对支持向量机(SVM)、朴素贝叶斯、决策树等机器学习方法进行了广泛研究,表明这些方法适用于文学作品尤其是诗歌的分类。Yadav和Bhojane提出了一个用于印地语健康新闻情感分析的系统,使用神经网络训练数据库中的极性词以加快处理速度。
在讽刺检测方面,Bouazizi等人对Twitter数据进行了讽刺检测,将有用特征分为四类,但该工作适用于英语。Bindra等人使用不同的Twitter标签作为情感标签,开发了用于讽刺和情感分类的语料库。Bharti等人提出了一个基于Hadoop的框架,用于实时捕获和处理句子以识别讽刺情感。
从上述研究可以看出,情感分析的准确性依赖于可靠资源,如Sent WordNet和预标注语料库。为了对印英混合语进行情感分析和讽刺检测,研究者提出了一种混合方法。
印英混合语情感词网方法
该方法通过将英语情感词网(ESWN)和印地语情感词网(HSWN)相结合来扩展ESWN。具体步骤如下:
1. 对HSWN进行转换,使其与ESWN兼容。
2. 将转换后的HSWN添加到ESWN中。
3. 为了提高精度,向扩展后的情感词网中添加更多印英混合语单词。
当一个句子输入到系统中时,系统会执行以下操作:
1. 将句子拆分为
超级会员免费看
订阅专栏 解锁全文
60

被折叠的 条评论
为什么被折叠?



