社交网络分类与SIS数据爬取策略研究
社交网络分类研究
数据集分类精度分析
在社交网络数据分类中,不同数据集具有不同的特性,这些特性会显著影响分类器的精度。以Cora和CiteSeer数据集为例,Cora数据集的局部同质性(LO homophily)高于CiteSeer,这使得LO分类器在Cora数据集上的精度也更高。对于Cora数据集,在CO分类器中使用数千个特征,不如在LO分类器中简单地使用聚合的类邻居,就能获得更好的精度。这是因为这两个数据集都具有较高的同质性,而LO(以及ICA)方法能从同质性中受益。
数据集 | LO同质性 | LO精度 | CO分类器特征使用情况 | LO分类器特征使用情况 |
---|---|---|---|---|
Cora | 高 | 高 | 数千个特征 | 聚合的类邻居 |
CiteSeer | 低 | 相对低 | - | - |
不同分类方法的表现
对于Cora和CiteSeer数据集,BN方法在ICA分类中给出了最佳结果,并且ICA的表现优于CO方法。然而,由于链接图的高同质性,ICA的精度仅比LO略好