19、社交网络分类与SIS数据爬取策略研究

社交网络分类与SIS数据爬取策略研究

社交网络分类研究

数据集分类精度分析

在社交网络数据分类中,不同数据集具有不同的特性,这些特性会显著影响分类器的精度。以Cora和CiteSeer数据集为例,Cora数据集的局部同质性(LO homophily)高于CiteSeer,这使得LO分类器在Cora数据集上的精度也更高。对于Cora数据集,在CO分类器中使用数千个特征,不如在LO分类器中简单地使用聚合的类邻居,就能获得更好的精度。这是因为这两个数据集都具有较高的同质性,而LO(以及ICA)方法能从同质性中受益。

数据集 LO同质性 LO精度 CO分类器特征使用情况 LO分类器特征使用情况
Cora 数千个特征 聚合的类邻居
CiteSeer 相对低 - -

不同分类方法的表现

对于Cora和CiteSeer数据集,BN方法在ICA分类中给出了最佳结果,并且ICA的表现优于CO方法。然而,由于链接图的高同质性,ICA的精度仅比LO略好

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值