用于印度混合语言文本情感分类的多语言模型微调
1. 情感分析的重要性与挑战
在当今数据过载的时代,情感分析在众多实际应用中起着至关重要的作用,如立场检测、评论分析、推荐系统等。企业收集了大量的客户反馈,情感分析可以帮助它们在最少的人工干预下更好地理解客户的情绪。自新冠疫情封锁以来,社交媒体用户数量大幅增加,企业和媒体机构越来越希望从社交媒体平台挖掘人们对产品和服务的看法和感受。此外,情感分析在预测股票市场、政治选举结果等宏观社会经济现象中也具有重要意义。
然而,微博评论的情感分析面临诸多挑战:
- 话题广泛 :人们的评论涉及方方面面,因此需要快速识别可用于训练的数据。
- 代码混合 :用户倾向于使用母语或代码混合文本表达内容,传统的情感分析方法主要关注单语文本,机器学习方法在处理代码混合数据时表现不佳。例如,代码混合句子 “Yes bro nanu Chinese appsgalna delete madidhini.” 中,“appsgalna”、“delete” 等英语单词与卡纳达语单词混合使用。
- 数据噪声 :代码混合数据往往存在无固定词序、拼写变化、缩写、无大小写等问题,且缺乏用于情感分析的注释代码混合数据,限制了该领域的发展。
2. 相关文献工作
2.1 数据集研究
- Jose 等人在代码切换研究数据集调查中,讨论了评估和分类数据集的质量指标,如单词数量、词汇量、句子数量、平均句子长度等。
- Hande 等人引入了卡纳达语代码混合数据集(KanC
超级会员免费看
订阅专栏 解锁全文
1056

被折叠的 条评论
为什么被折叠?



