76、社交网络分析:图聚类与推特用户性别标注数据集构建

社交网络分析:图聚类与推特用户性别标注数据集构建

图聚类算法研究

在图聚类领域,研究人员提出了一种用于图聚类的算法。该算法在静态实验中,能为更精细的结构产生高q - 模块化结果。不过,与Louvain方法或带离散化的谱聚类相比,它未能达到q - 模块化的全局最优。

在边移除实验中,研究人员创建了100个图,并从每个图中随机移除100条现有边,共得到10000个移除事件。结果显示,若移除的边未破坏到枢纽节点的最短路径,则无需发送任何消息,这种情况占事件的60.1%。平均而言,每次移除操作需要发送14.2条消息(标准差为42.15),最多发送了674条消息,这是枢纽节点附近结构发生变化的罕见情况。这表明该算法在动态图结构上表现良好,当图随时间变化时,只需少量处理步骤即可更新聚类,适用于在线聚类和社区分析。

此外,该算法能生成重叠社区并提供模糊成员度,结果具有确定性,随机性仅影响清晰的聚类分配。

推特用户性别标注数据集创建
研究背景

社交网络服务为人们提供了便捷的交流和表达情感的方式,用户生成的内容包含了用户行为、偏好等线索以及元数据信息,可用于科学研究。其中,Twitter成为社交网络研究的重要来源,但Twitter注册不包含用户性别信息,这使得许多涉及Twitter的研究依赖小的手动标注数据集,手动标注不仅劳动密集,而且在处理大量用户时具有挑战性。

已有研究情况

文献中常见关于Twitter数据集创建的报道,但大多数数据库未标注用户性别或年龄等属性。表1总结了文献中报道的标注数据集,可见多数研究使用的标注数据集与现有用户数量相比规模较小。这些研究涉及多种语言,其中英语用户占66.7%,葡萄牙

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值