社区发现数据集

本文列举了多个用于社区发现的研究数据集,包括基于链接分析的Zachary karate club、American College football和Dolphin social network,以及结合属性的Political blogs、DBLP和Facebook Friendship Datasets等。这些数据集广泛应用于社会网络、信息网络分析等领域。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

社区发现数据集

目录

基于链接分析的数据集

  • Zachary karate club

    Zachary 网络是通过对一个美国大学空手道俱乐部进行观测而构建出的一个社会网络.网络包含 34 个节点和 78 条边,其中个体表示俱乐部中的成员,而边表示成员之间存在的友谊关系.空手道俱乐部网络已经成为复杂网络社区结构探测中的一个经典问题[1]。【下载地址

  • American College football

    College Football 网络. Newman 根据美国大学生足球联赛而创建的一个复杂的社会网络.该网络包含 115个节点和 616 条边,其中网络中的结点代表足球队,两个结点之间的边表示两只球队之间进行过一场比赛.参赛的115支大学生代表队被分为12个联盟。比赛的流程是联盟内部的球队先进行小组赛,然后再是联盟之间球队的比赛。这表明联盟内部的球队之间进行的比赛次数多于联盟之间的球队之间进行的比赛的次数.联盟即可表示为该网络的真实社区结构[2]。【下载地址

  • Dolphin social network

    Dolphin 数据集是 D.Lusseau 等人使用长达 7 年的时间观察新西兰 Doubtful Sound海峡 62 只海豚群体的交流情况而得到的海豚社会关系网络。这个网络具有 62 个节点,159 条边。节点表示海豚,而边表示海豚间的频繁接触[3]。【下载地址

  • netscience dataset

    Netscience is a coauthorship network of scientists working on network theory and experiment. The dataset contains all components of the network, for a total of 1589 scientists [12]. 【下载地址, 访问密码:4bfc】


基于链接与离散型属性的数据集

  • Political blogs

    该 数 据 集 由Lada Adamic于2005年编译完成, 表示博客的政治倾向。 包含1490个结点和19090条边。数据集中的每个结点都有一个属性描述(用0或者1表示),表示民主或者保守[4] 。【下载地址

  • DBLP Dataset

    Digital Bibliography Project (DBLP) is a computer science bibliography. In this data set, authors are considered as users, the paper titles of the authors are the text of users and the coauthorship relationship forms the links of users.
    DBLP每月更新的数据地址
    DBLP处理后的数据集数据地址
    DBLP数据集【使用说明1使用说明2

    • DBLP-10K
      DBLP Bibliography data from four research areas of database (DB), data mining (DM), information retrieval (IR) and artificial intelligence (AI) 3. We build a coauthor graph with top 5, 000 author
<think>好的,我需要帮助用户找到与局部社区发现相关的数据集。首先,我得理解用户的需求。用户提到了“局部社区发现算法”,这指的是从网络中的局部结构出发,识别社区的算法,如LFM算法[^3]。接下来,我需要确定哪些公开数据集适合这类算法的测试和验证。 我应该考虑用户可能需要的常见数据集类型。局部社区发现通常处理的是图或网络数据,因此需要社交网络、协作网络、生物网络等类型的数据集。同时,数据集的规模不宜过大,因为用户可能是在小数据集上进行实验,比如引用[1]提到的Python版社群发现算法。另外,数据需要有已知的社区结构,便于验证算法效果。 首先,常见的公开数据集有哪些呢?比如Karate Club、Dolphins这些小型网络数据集,它们结构简单,适合初步测试。然后像Facebook、Twitter的社交网络数据,可能规模稍大,但也是常用的。还有像DBLP这样的学术合作网络,适合分析协作关系中的社区。生物领域的蛋白质相互作用网络,如PPI,可能也是用户感兴趣的。 接下来是数据集的下载来源。可靠的平台包括Stanford SNAP、UCI机器学习仓库、Network Repository等。这些平台提供多种格式的数据下载,如边列表或邻接矩阵,方便处理。需要确保这些链接有效,并且用户能够轻松访问。 另外,用户可能需要知道如何处理这些数据。比如使用Python的NetworkX库加载边列表文件,或者用Pandas处理CSV数据。这部分的信息对用户来说可能有帮助,尤其是如果他们不熟悉数据导入的话。 然后,我需要检查是否有相关的引用或工具支持。例如,引用[4]提到scikit-learn和MATLAB的工具箱,但那些更多是降维算法。不过,像NetworkX这样的图处理库可能更适合社区发现任务。用户可能还需要知道如何应用算法到数据集上,比如使用Louvain或Leiden算法[^2],但用户的问题主要是数据集,所以这部分可能不需要深入。 需要确保提到的数据集确实适用于局部社区发现。例如,LFM算法基于局部扩展,因此数据集需要有明显的局部结构,如小规模的社交圈子。像Karate Club这样的数据集正好符合,因为它描述了空手道俱乐部成员之间的关系,分裂成两个社区,适合测试局部算法。 最后,整理这些信息,分点列出数据集、描述、适用场景和下载链接。确保每个数据集都有明确的来源,避免死链。可能还需要提醒用户数据集的格式和预处理步骤,比如如何处理边列表或节点属性。 总结步骤: 1. 确定局部社区发现算法的数据需求:小规模、已知社区结构、图数据。 2. 列出符合条件的数据集,包括小型社交网络、协作网络、生物网络等。 3. 提供每个数据集的描述、适用场景和下载链接。 4. 推荐数据处理工具和方法,如Python库的使用。 5. 确保引用正确,例如提到的Leiden算法解决连通性问题[^2]。 6. 检查所有链接是否有效,并补充必要的说明,如数据格式。 现在需要将这些整理成用户友好的回答,分点清晰,方便用户查找和使用。</think>### 关于局部社区发现算法数据集的推荐 局部社区发现算法(如LFM算法)通常需要具备局部结构特性的网络数据集。以下是适合此类算法的数据集推荐,包含下载链接和简要说明: --- #### **1. 经典小规模社交网络数据集** - **Karate Club 空手道俱乐部网络** - **描述**: 34个节点,78条边,描述俱乐部成员间的社交关系,最终分裂为两个社区。 - **适用场景**: 验证算法在小规模网络中的基础性能。 - **下载链接**: [UCI Network Data Repository](https://networkdata.ics.uci.edu/resources.php) - **格式示例**(边列表): ```text 1 2 1 3 2 3 ... ``` - **Dolphins 海豚社交网络** - **描述**: 62个节点,159条边,记录海豚群体的互动关系,自然形成两个社区。 - **下载链接**: [Network Repository](http://networkrepository.com/soc-dolphins.php) --- #### **2. 中等规模真实社交网络** - **Facebook 社交网络数据** - **描述**: 包含用户好友关系和属性标签,适合验证局部社区扩展能力。 - **下载链接**: [Stanford SNAP](https://snap.stanford.edu/data/egonets-Facebook.html) - **处理示例**(Python代码): ```python import networkx as nx G = nx.read_edgelist("facebook_combined.txt") ``` - **Twitter 关注关系网络** - **描述**: 用户关注关系构成的网络,社区结构隐含在兴趣群体中。 - **下载链接**: [Konect](http://konect.cc/networks/twitter/) --- #### **3. 学术合作网络** - **DBLP 合作网络** - **描述**: 计算机领域学者合作发表论文的网络,社区对应研究领域。 - **下载链接**: [AMiner](https://www.aminer.cn/citation) - **适用场景**: 分析局部社区在动态增长网络中的演化。 --- #### **4. 生物网络** - **蛋白质相互作用网络 (PPI)** - **描述**: 蛋白质之间的相互作用关系,社区对应功能模块。 - **下载链接**: [STRING Database](https://string-db.org/) - **格式说明**: 通常为带权边列表,权重表示相互作用强度。 --- #### **5. 带标注社区数据集** - **Amazon 商品购买网络** - **描述**: 用户购买商品的关系网络,社区对应商品类别。 - **下载链接**: [Stanford SNAP](https://snap.stanford.edu/data/amazon-meta.html) --- ### 数据处理工具推荐 1. **NetworkX**(Python库): 支持加载边列表、邻接矩阵,并提供社区发现算法接口。 ```python import networkx as nx communities = nx.algorithms.community.greedy_modularity_communities(G) ``` 2. **Gephi**(可视化工具): 可直观展示网络结构和社区划分效果。 --- ### 注意事项 - **数据格式**: 大多数数据集提供`.txt`或`.csv`格式的边列表,部分包含节点属性。 - **预处理**: 需清洗孤立节点或重复边,例如使用Pandas过滤数据: ```python import pandas as pd df = pd.read_csv("edges.csv").drop_duplicates() ``` ---
评论 48
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值