网络评论过滤与移动设备密码安全分析
过滤争议性评论
随着互联网的发展,尤其是Web 2.0的出现,用户在互联网上的参与度大幅提升,社交新闻网站变得越来越受欢迎。在这些网站上,用户可以对各种新闻故事或其他用户的评论发表自己的看法。然而,大量的评论中可能包含争议性的“钓鱼”评论,需要进行有效的过滤。
传统的监督式机器学习算法虽然可以对评论进行分类,但需要大量的标注数据,这在实际的网络挖掘问题中是非常困难和耗时的。集体分类是一种半监督学习方法,它利用标注和未标注数据集的关系结构来提高分类的准确性。基于此,我们提出了一种基于集体分类技术的文本分类方法,用于过滤争议性评论。
评论特征提取
我们从西班牙社交新闻网站“Menéame”的评论中提取了三类特征:
1. 统计特征 :
- 评论正文 :使用向量空间模型(VSM)和词频 - 逆文档频率(TF - IDF)加权方案来表示评论。同时,采用词和n - 元组作为术语进行加权。
- 评论引用次数(入度) :表示该评论在同一新闻故事的其他评论中被引用的次数。
- 评论引用其他评论的次数(出度) :衡量该评论对同一新闻故事中其他评论的引用数量。
- 评论编号 :反映评论的新旧程度。
- 评论与新闻故事摘要的相似度 :使用余弦相似度来计算。
- 评论中的单词与新闻故事标签的重合次数 。
-
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



