利用辅助信息进行网络欺凌检测:新冠疫情新闻中文评论的实际应用
1. 引言
近年来,网络欺凌,即通过社交媒体上的在线评论欺凌或骚扰他人,已成为一个广泛讨论的问题。移动互联网的匿名性和隐蔽性加速了网络欺凌成为一种普遍的社会现象,而近年来新冠疫情的全球大流行更是加剧了此类在线评论的失范现象。这种失范主要表现为使用侮辱性和歧视性语言,如辱骂、诽谤、蔑视和嘲笑,使他人遭受语言暴力带来的精神和心理侵犯与伤害。为了营造和谐的网络氛围,净化评论语言环境,有必要对社交媒体上的网络欺凌进行有效检测和分析。
检测社交媒体上的网络欺凌是一个困难且具有挑战性的问题,原因主要有两点:
- 自然语言处理难题 :提取和识别此类语言的任务通常属于自然语言处理(NLP)领域,但由于语言评论的灵活性和不规则性,很难及时直接发现和处理网络欺凌。例如,不直接包含恶意词汇的评论、讽刺性提问的评论以及引用可疑陈述的评论。而且,大多数现有的网络欺凌检测方法主要关注评论内容的建模,而忽略了社交评论中丰富的辅助信息。随着社交媒体的普及,我们可以从网络用户的角度收集相关辅助信息,这有助于我们捕捉除评论内容之外的丰富信息。同时,现代社会互联网信息的爆炸式增长使得社交媒体平台管理员手动检查用户评论对于网络欺凌检测来说完全不够,因此机器学习技术的应用成为自动化网络欺凌检测的可行方法。
- 语言和数据集限制 :大多数现有研究主要集中在英语社交媒体平台,如 Twitter 和 Instagram。但各种中文预训练模型为我们基于中文进行网络欺凌自动化检测技术的深入研究提供了基础,而创建一个基准数据集是这项研究的首要任务。
为了解决这些问题,我们提出了
超级会员免费看
订阅专栏 解锁全文
972

被折叠的 条评论
为什么被折叠?



