动手学PyG(二)PyG中包含的常用Benchmark数据集

光H尘

已于 2022-01-18 19:38:31 修改

阅读量1.2k

点赞数 1

分类专栏：动手学PyG 文章标签： pytorch 深度学习 python

于 2022-01-18 16:14:45 首次发布

本文链接：https://blog.youkuaiyun.com/ln_guangchen/article/details/122561692

版权

本文介绍了PyG库中包含的多种常用图数据集，如Planetoid系列和图分类数据集，并以ENZYMES数据集为例，详细说明了如何下载和访问数据，以及如何利用列表切片进行数据划分。同时提到了Cora数据集在无监督节点分类任务中的应用及其特殊属性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

PyG中常用的Benchmark数据集

本文主要参考了 PyG英文文档

PyG中包含了大量常用的benchmark数据集，如所有Planetoid数据集(Cora, Citeseer, Pubmed)。来自http://graphkernels.cs.tu-dortmund.de/的所有图分类数据集，和其简洁版，QM7和QM9数据集等等。

数据集的下载和使用非常简单，下面以ENZYMES数据集(包含600个图，分为6类)为例做介绍。

from torch_geometric.datasets import TUDataset

dataset = TUDataset(root='/tmp/ENZYMES', name='ENZYMES')
>>> ENZYMES(600)

len(dataset)
>>> 600

dataset.num_classes
>>> 6

dataset.num_node_features
>>> 3
<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

光H尘

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【图神经网络】Pytorch图神经网络库——PyG在线代码笔记和视频教程

小哲的博客

12-25

1138

这里准备了一份colab笔记本列表，它实际上介绍了图神经网络与PyG的世界

Benchmark Datasets.rar

06-16

benchmark数据集主要有（全部为.mat格式可以直接使用，label已处理好）：jaffe50_uni,YaleData,ORLData,feret_data,UmistData,AR_ImData,XM2VTS50,MSRA50,MSRA25,Coil20Data,Coil100Data,USPSdata,MnistData，Mpeg7_uni，caltech101，PalmData25，poseData_32，australian，chess_uni，cleve_uni，balance_uni，breast_uni，heart_uni，diabetes，glass_uni，pima_uni。等一共约100份数据集（不一一罗列了!）

参与评论您还未登录，请先登录后发表或查看评论

Benchmark

Cenfalan的博客

03-02

2228

有很多认为响应时间应该看平均时间，如果写要求比较低的系统的确是可以看平均时间，这样就会导致很多用户响应的速度很慢，但是我们在监控指标上体现不出来，所以就有了百分位指标这样的概念，TP99的意思就是，取排名排到第99百分位的响应时间，即排除了一些异常的情况（剩余的那1%），又保证了大多数用户的响应时间。上面的方法都不能用来做全链路压测，都缺少很多核心功能，比如请求录制，定时压测，实时监控，报告分析等等，这个时候我们可以直接使用阿里云的PTS进行全链路压测，或者自研一套基于自己业务系统的全链路压测系统。

用 Python 实现一个 Benchmark 工具

最新发布

[SZU_Crayon]

03-30

277

最近在开发一个第三方库，需要对比模块在串行 / 并发 / Async 上的性能表现，并且在 Python 3.13 版本上运行，没有找到合适的工具，于是就自己实现了一个.

GCN的Benchmark数据集溯源

w55100的博客

10-29

2350

前言最经典的GCN做了四个数据集的实验，后续工作基本会在这4个数据集上也做一次。但是由于年代久远，和一些历史问题，后来者想做对比实验难免遇到一些“从哪里获取"与"是这个东西吗”之类的困惑。本文记录一些现在还能找到的基本事实供后续入坑的初学者参考。主要厘清几个数据集的存在形式与变迁。 4个基本数据集 Cora, Citeseer, Pubmed, Nell。格式介绍优快云上已经有一篇很好的文章了《GCN使用的数据集Cora、Citeseer、Pubmed、Tox21格式》。我们按时间关系捋一下

数据集（benchmark）、常用数据集的解析（cifar-10、）

weixin_30888413的博客

03-11

1539

What is the class of this image ? 主要是以下常见的数据集，用以衡量算法的分类准确率： mnist、cifar-10、cifar-100stl-10 svhn、ILSVRC2012 task 1 1. cifar-10 CIFAR-10 and CIFAR-100 datasets cifar-10-batches-...

benchmark人工生成网络数据集——eclipse版

03-05

benchmark人工数据集，解压后直接导入eclipse中执行即可，带UI界面。

【数据集】ACM数据集

dundunmm的博客

03-01

1522

ACM（Association for Computing Machinery）数据集是计算机科学领域常用于研究学术论文、作者关系、引文网络、推荐系统、图神经网络（GNN）等任务的数据集之一。该数据集通常包含学术论文、作者、研究领域以及它们之间的关系，并在许多机器学习、数据挖掘和社交网络分析任务中广泛使用。ACM数据集通常以CSV、JSON、Graph（图数据格式，如Neo4j、DGL、PyG）存储。该代码读取ACM数据集的论文和引文关系，并用绘制引文网络。

OGB数据集《Open Graph Benchmark: Datasets for Machine Learning on Graphs》

智慧的旋风的博客

02-11

5324

OGB数据集之前一直在几个玩具数据集上跑模型，发现了很多问题。看了OGB论文里的一些描述，我也深有体会，感觉很多东西都说到我心里去了。预计再发展几年吧，OGB也能像ImageNet那样，成为图表示学习领域中的一个统一的标准。 Hu W, Fey M, Zitnik M, et al. Open graph benchmark: Datasets for machine learning on graphs[J]. arXiv preprint arXiv:2005.00687, 2020. 数据集是模

PyG-基于pyg内置函数Conv实现对cora数据的分类

图挖掘领域，新晋砖家 ☞ 未来可期，欢迎和静静一起学习交流吖

02-02

963

目录基础参考 GCN公式矩阵基础矩阵形式单个节点代码结果基础参考参考本人写的另一篇博客pyg框架初认识 pyg手册参考 pyg自带基准数据集 pyg快速入门论文入门学习参考 GCN理解https://zhuanlan.zhihu.com/p/89503068 pyg入门实战1https://zhuanlan.zhihu.com/p/91229616 pyg-cora数据集理解https://zhuanlan.zhihu.com/p/78...

PyG中的数据集Cora等

weixin_42327834的博客

09-09

825

https://blog.youkuaiyun.com/weixin_34570232/article/details/114452066 数据集 PyTorch Geometric已经包含有很多常见的基准数据集，包括： Cora：一个根据科学论文之间相互引用关系而构建的Graph数据集合，论文分为7类：Genetic_Algorithms，Neural_Networks，Probabilistic_Methods，Reinforcement_Learning，Rule_Learning，Theory，共2708

数据挖掘benchmark

02-19

Recommendation algorithms with maximum prediction quality Scenario Recommendation engines (REs) are increasingly being used in e-commerce for product recommendations. Recommendation algorithms calculate and automatically recommend products on the basis of product detail views opened by visitors to web shops. This maximises the user's activity (number of views opened) and the success (sales, turnover). Developing powerful algorithms for REs is currently one of the most popular areas of research focus in data mining.

benchmark.zip

04-18

用于深度学习超分辨重建的benchmark数据集，用来测试自己的模型与其他已有的模型进行效果对比。其中包括['B100', 'Set14', 'Set5', 'Urban100']数据集

benchmark里找自己需要的数据集

weixin_44304362的博客

06-03

2113

1.PASCAL VOC（权威鼻祖） PASCAL VOC数据集分析 PASCAL VOC是一个图像集，由Mark Everingham (University ofLeeds)、Luc van Gool (ETHZ, Zurich)等人创立，有**1.7W+**张图片，分为20类。PASCALVOC竞赛也是计算机视觉竞赛的鼻祖，从2005年到2012年一共举办了8届，包含了物体分类（Classi...

Benchmark——基准测试

m0_73686459的博客

03-02

6296

在大数据领域中，“benchmark”（基准测试）是一个关键概念。本文将以对进行数据仓库的测试为例阐述Benchmark的基本概念

汇总大语言模型LLM的评测基准数据集（BenchMarks）

日常学习与专研的记录

06-28

8709

本文介绍大语言模型LLM的BenchMarks评测数据集，帮助评估模型能力。

4D Light Fields Benchmark数据集简介

weixin_43559672的博客

10-27

1063

关注5个挑战：遮挡边界、精细结构、低纹理、平滑表面和相机噪声。视差：大部分为-1.5 ~ 1.5 px，少部分可以达到-3 ~3 px。分辨率：8bit 光场图像，9×9×512×512×3。对于stratified和training场景，我们进一步提供了两种分辨率（512×512px和5120×5120px）的评估遮罩和16bit真实视差图。评价指标： Bumpiness仅关注估计的平滑度，而不评估方向错误或偏移。 Backgammon：评估精细结构、遮挡边界和视差差异的相互作用。.它由两个

【Benchmarks&Datasets】跟踪数据集

大洲的博客

07-14

1607

跟踪数据集LaSOT(CVPR2019)GOT-10k LaSOT(CVPR2019) 在论文中指出了现有数据集的几个问题：规模小 Small-scale 缺乏高质量的密集注释 Lack of high-quality dense annotations 它可能会给一些需要从注释中学习时态模型的跟踪器带来问题，因为这些基准测试中的时态上下文可能会由于稀疏注释而丢失，或者由于可能不可靠的注释而不...

使用指南 | IoT Benchmark 生成模拟数据集和写入

SpriCoder的博客

01-20

869

IoT Benchmark 是基于 Java 开发的时序数据库测试工具，支持 Apache IoTDB 各版本、InfluxDB 等多款数据库的测试，支持生成模拟数据集和使用真实数据集，并且完成多种配置的读写混合测试。本文主要介绍了如何使用 IoT Benchmark 生成模拟数据集和加载外部数据集。

图神经网络数据集下载

03-13

<think>好的，用户想下载图神经网络相关的数据集，我需要先确定他们需要什么类型的数据。图神经网络常用于社交网络、分子结构、推荐系统等，所以常见的数据集包括社交网络如Cora、Citeseer，化学的如MUTAG，推荐系统的如MovieLens。首先，我应该列出一些常用的公开数据集，并说明它们的用途，这样用户可以根据自己的需求选择。比如Cora是论文引用网络，适合节点分类任务；OGB是一个大型图数据集合，适合各种任务。同时，要提供每个数据集的下载链接，方便用户直接访问。接下来，用户可能需要指导如何加载这些数据集，特别是使用PyTorch Geometric或DGL这样的库。比如PyTorch Geometric内置了很多数据集，可以通过几行代码直接下载和加载，这对用户来说非常方便。然后，考虑到用户可能对数据格式不熟悉，需要说明典型的数据结构，比如节点特征、边列表、标签等。这有助于他们理解数据集的结构，方便后续处理。另外，用户可能还想知道如何自定义数据集，比如将自己的数据转换成图结构。这时候需要给出一些建议，比如使用NetworkX或CSV文件来构建图，并提供代码示例。最后，相关的问题部分需要考虑用户可能遇到的后续问题，比如数据预处理方法、处理大规模数据的技巧、常用框架以及评估指标。这些能帮助用户更全面地应用图神经网络。需要确保回答结构清晰，分点列出，并且每个部分都有具体的例子和引用。同时，检查提供的链接是否有效，代码示例是否正确，避免错误信息。</think># 图神经网络数据集下载指南 ## 一、常用公开数据集 1. **社交网络数据集** - **Cora**：包含2708篇论文的引用网络，节点特征为词向量，适用于节点分类任务下载地址：[Planetoid (Cora/Citeseer/Pubmed)](https://github.com/kimiyoung/planetoid) - **Reddit**：包含Reddit论坛的帖子交互图，适用于大规模图表示学习下载地址：[Stanford Large Network Dataset Collection](https://snap.stanford.edu/data/) 2. **化学分子数据集** - **MUTAG**：包含188个硝基化合物的分子图结构，适用于图分类任务下载地址：[TUDataset](https://chrsmrrs.github.io/datasets/) - **OGB**：开放图基准数据集集合，包含分子属性、蛋白质相互作用等下载地址：[Open Graph Benchmark](https://ogb.stanford.edu/) 3. **推荐系统数据集** - **MovieLens**：包含用户-电影评分数据，可构建用户-物品二分图下载地址：[MovieLens 25M Dataset](https://grouplens.org/datasets/movielens/) ## 二、数据加载方法 ### 1. 使用PyTorch Geometric（推荐） ```python from torch_geometric.datasets import Planetoid, TUDataset # 自动下载Cora数据集 dataset = Planetoid(root='/tmp/Cora', name='Cora') # 下载分子数据集 dataset = TUDataset(root='/tmp/MUTAG', name='MUTAG') ``` ### 2. 使用DGL库 ```python import dgl.data # 加载Citeseer数据集 dataset = dgl.data.CiteseerGraphDataset() ``` ## 三、数据结构说明典型图数据集包含以下文件： ``` dataset/ ├── edges.csv # 边列表 (源节点, 目标节点) ├── nodes.csv # 节点特征和标签 ├── graph.json # 图结构描述文件 └── README # 数据说明文档 ``` ## 四、自定义数据集构建 1. **使用NetworkX构建图** ```python import networkx as nx G = nx.karate_club_graph() # 经典空手道俱乐部社交网络 ``` 2. **CSV文件转换** ```python import pandas as pd edges_df = pd.read_csv('edges.csv') nodes_df = pd.read_csv('nodes.csv') ``` ## 五、注意事项 1. 部分学术数据集需要邮件申请授权（如某些生物医药数据集） 2. 大规模数据集下载建议使用学术加速通道 3. 推荐优先使用OGB、PyG等标准库中的数据集[^2][^4]