孟加拉语文本网络攻击检测中的多级投票模型
1. 引言
社交媒体平台的广泛普及极大地影响了人们的生活,使人们能够比以往更自由地表达观点和想法。像 Twitter 和 Facebook 这样的社交网络平台,深受人们尤其是青少年的喜爱,已成为日常生活中不可或缺的一部分。
然而,这些社交媒体的大量使用也带来了一些负面影响,青少年常常成为网络欺凌的受害者。网络欺凌包括攻击性言论、性别歧视、种族主义、骚扰、有毒信息和仇恨言论等,这些有害文本可能导致受害者出现自我伤害、抑郁、压力、情绪挫折甚至自杀念头或行为。据皮尤研究中心报告,美国超 60% 的社交媒体用户曾遭受网络欺凌,青少年尤其是女孩受影响更严重。
为减少网络欺凌,人们实施了多种预防策略,但检测孟加拉语文本中的攻击性语言是一项艰巨任务。社交媒体消息中的非正式语言,如缩写和俚语,以及孟加拉语方言和句式的多样性,增加了分类器处理和理解语义的难度,影响了分类器的性能。
为实现孟加拉语文本攻击性内容的自动检测,我们着手识别从不同社交媒体获取的孟加拉语攻击性内容。采用了双层集成模型(DLE)和三层集成模型(TLE),结合多种监督学习模型和特征提取技术,将帖子自动分为“有毒”和“无毒”两类。实验结果显示,我们的模型优于单个分类器技术(支持向量机、逻辑回归、决策树模型、多项朴素贝叶斯、K 近邻)和集成策略(梯度提升分类器、AdaBoost 和随机森林)。
2. 相关工作
近期,人们开发了多种研究社交媒体滥用的方法,以下是一些相关研究:
- 英语数据研究 :
- Alam 等人提出一种机器学习算法,用于检测和避免 Twitter 上的
孟加拉语网络攻击检测多级投票模型
超级会员免费看
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



