社交网络中网络欺凌检测的半监督学习方法
在当今数字化的时代,社交网络已经成为人们生活中不可或缺的一部分。然而,网络欺凌这一问题也随之而来,给许多人带来了困扰和伤害。为了有效检测社交网络中的网络欺凌行为,本文提出了一种半监督学习方法。
1. 特征空间建模
为了理解用户在发布评论时可能具有的语义结构,我们可以从给定的帖子中生成丰富的特征集。这些特征通常被称为语言特征,在自然语言处理应用中被广泛使用。具体包括以下几个方面:
- 关键词特征 :采用关键词的二进制表示,用于判断关键词是否出现。
- 恶意影响特征 :使用关键词的归一化值,即帖子中脏话的数量除以消息中单词的总数,以捕捉消息中的恶意影响。
- 代词特征 :像“你”和“他”这样的代词会使消息更具针对性。例如,如果关键词出现在“你”附近,可能表明消息更针对那个人。
- 情感特征 :为了捕捉用户的情感程度,在特征空间设计中纳入了情感因素。分别计算每条评论中快乐和愤怒情绪的归一化值。
- 大写字母特征 :互联网上的人们常使用大写字母来表示大喊大叫,因此使用消息中大写字母的归一化值来捕捉音量。
- 元数据特征 :消息的其他元数据,如特殊字符,以归一化形式使用。
- 用户信息特征 :用户的年龄和性别也被用作特征,因为不同年龄组和性别的人在词汇选择、使用和语言方面存在差异。
此外,我们还尝试提取位置信息,但由于数
超级会员免费看
订阅专栏 解锁全文
55

被折叠的 条评论
为什么被折叠?



