检测开放访问在线论坛中的性掠夺行为
1. 引言
虚拟通信服务和社交网络平台让人们只需轻点按钮就能轻松联系到亲朋好友。然而,在线聊天室里充斥着大量不良分子,这一现象令人担忧。性掠夺者进入聊天室或论坛,试图说服儿童提供性服务,这对社会尤其是儿童的网络安全构成了严重威胁。例如,一些在线恋童癖者会“培养”儿童,与他们进行露骨的文字或视频聊天,最终诱使儿童与他们见面。
此前已有一些关于识别在线聊天室中性掠夺行为的研究,如使用链式分类器进行预测、基于心理语言学对大量聊天记录进行学习分析,以及探索检测网络恋童癖的高级特征等。而本次研究聚焦于分析整个对话,判断其是否包含性掠夺行为,而非单纯检测掠夺者。为此,研究提出了一种结合深度学习和统计学习模型以及特征提取方法的算法,同时考虑了上下文细节,该算法还融入了Word2Vec、线性判别分析和AdaBoost。
2. 方法论
算法的输入是一个包含所有对话数据的CSV文件,其中还包括对话标签,用二进制值1表示有掠夺行为的对话,0表示无掠夺行为的对话。
2.1 数据处理和文本预处理
数据预处理包括以下步骤:
1. 移除少于三个单词的对话。
2. 去除多余的空格、HTML标签、链接和数字字符。
3. 将所有字符转换为小写并进行拼写检查。
预处理后的文本输出是一个包含对话标签和整个对话的扁平文件。
2.2 单词的向量表示
使用Google的Word2Vec将文本数据转换为高维向量表示,以量化信息。该模型通过将在相同上下文中使用的单词向量放置在相近位置,来重建单词的语言上下文。如果对词嵌入进行降维处理,这些语义规
超级会员免费看
订阅专栏 解锁全文
1478

被折叠的 条评论
为什么被折叠?



