孟加拉语性别辱骂语言检测:机器学习算法的应用
一、引言
随着互联网和社交媒体的普及,网络上的各种社会问题也日益凸显,其中性别歧视性辱骂是一个备受关注的问题。女性和女孩更容易成为网络骚扰的受害者,据估计,每十个女性中就有一个曾遭受过网络暴力或骚扰。社交媒体平台如Facebook、Twitter等,已成为实施性别暴力的便捷工具。
孟加拉语是世界上第七大使用语言,因此识别和分类来自各种社交网站的孟加拉语仇恨言论、辱骂和冒犯性电子文本至关重要,这有助于打击孟加拉国和全球其他孟加拉语社区的基于性别的网络犯罪。此前已有一些关于孟加拉语仇恨言论检测的研究,但大多针对广义的仇恨言论,未明确涵盖特定性别的情况。本研究聚焦于检测性别辱骂或性别敏感言论,重点为孟加拉语数据集做出贡献。
二、相关工作
研究人员利用社交媒体上的公开数据,采用各种机器学习方法进行仇恨言论检测研究,涉及多种社交媒体平台:
1. Twitter :
- Badjatiya等人研究使用深度神经网络架构检测推文中的仇恨言论,实验了包括深度神经网络、逻辑回归、支持向量机(SVM)和随机森林等分类器。
- Sachdeva等人使用Twitter上的仇恨言论数据集,应用多种机器学习算法,SVM算法在识别仇恨言论方面准确率最高,达到86%。
- Aljarah等人利用机器学习检测阿拉伯语中的仇恨言论,讨论了检测挑战,并实验了不同算法。
- B. Pariyani等人使用多种NLP方法从推文中提取特征。
2. Reddit :
- GI Sigurbergsson等人构建了包
超级会员免费看
订阅专栏 解锁全文
37

被折叠的 条评论
为什么被折叠?



