提升网络垃圾索引检测及深度网络数据库语义聚类研究
在当今的网络环境中,网络垃圾信息的泛滥以及深度网络数据库资源的有效组织都是亟待解决的问题。本文将介绍一种用于网络垃圾索引检测的两阶段分类策略,以及深度网络数据库语义聚类的相关方法。
网络垃圾索引检测的两阶段分类策略
- 算法流程
- 输入 :训练集(TrainSet)、测试集(TestSet)和分类器(Classifier)。
- 输出 :垃圾索引检测结果。
- 具体步骤 :
- 使用训练集训练分类器。
- 保存学习到的模型Model1。
- 对测试集中的每个样本x,使用模型Model1进行测试。
- 遍历测试集,若满足条件C1,则将样本x加入训练集,从测试集移除,并将x和预测标签放入结果集。
- 用训练集样本标记网页图。
- 在标记的网页图上进行链接学习。
- 再次遍历测试集,若满足条件C2,则将样本x加入训练集,从测试集移除,并将x和预测标签放入结果集。
- 使用更新后的训练集再次训练分类器。
- 保存学习到的模型Model2。
- 对测试集中的每个样本x,使用模型Model2进行测试,并将x和预测标签放入结果集。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



