图神经网络Core数据集介绍

最新推荐文章于 2024-05-23 15:28:05 发布

原创

最新推荐文章于 2024-05-23 15:28:05 发布 · 3.7k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#神经网络 #深度学习 #人工智能

本文介绍了Cora数据集中机器学习论文的七个类别，数据处理过程包括词干化、词尾去除和特征提取。详细解读了cora.cites和cora.content文件结构，展示了数据加载、特征转换和样本划分的方法。

数据集概括

Cora数据集由机器学习论文组成。这些论文分为以下七个类别之一：

基于案例
遗传算法
神经网络
概率方法
强化学习
规则学习
理论

这些论文的选择方式是，在最终语料库中，每篇论文引用或被至少一篇其他论文引用。整个语料库中有 2708篇论文。

在词干堵塞和去除词尾后，只剩下 1433个唯一的单词。文档频率小于10的所有单词都被删除。

数据集文件说明

该数据集由 cora.cites 与 cora.content 两个文件组成。

cora.content

.content文件包含以下格式的论文描述：<paper_id> <word_attributes>+ <class_label>

每行（其实就是图的一个节点）的第一个字段是论文的唯一字符串标识，后跟 1433 个字段（取值为二进制值），表示1433个词汇中的每个单词在文章中是存在(由1表示)还是不存在(由0表示)。最后，该行的最后一个字段表示论文的类别标签（7个）。因此该数据的特征应该有 1433 个维度，另外加上第一个字段 idx，最后一个字段 label，一共有 1433 + 2 个维度。

cora.cites

.cites文件包含语料库的引用关系‘图’。
每行（其实就是图的一条边）用以下格式描述一个引用关系：<被引论文编号> <引论文编号>

每行包含两个paper id。第一个字段是被引用论文的标识，第二个字段代表引用的论文。引用关系的方向是从右向左。如果一行由“论文1 论文2”表示，则“论文2 引用论文1”，即链接是“论文2 - >论文1”。可以通过论文之间的链接（引用）关系建立邻接矩阵adj。

ind.cora.x : 训练集节点特征向量，保存对象为：scipy.sparse.csr.csr_matrix，实际展开后大小为： (140, 1433)

ind.cora.tx : 测试集节点特征向量，保存对象为：scipy.sparse.csr.csr_matrix，实际展开后大小为： (1000, 1433)

ind.cora.allx : 包含有标签和无标签的训练节点特征向量，保存对象为：scipy.sparse.csr.csr_matrix，实际展开后大小为：(1708, 1433)，可以理解为除测试集以外的其他节点特征集合，训练集是它的子集

ind.cora.y : one-hot表示的训练节点的标签，保存对象为：numpy.ndarray

ind.cora.ty : one-hot表示的测试节点的标签，保存对象为：numpy.ndarray

ind.cora.ally : one-hot表示的ind.cora.allx对应的标签，保存对象为：numpy.ndarray

ind.cora.graph : 保存节点之间边的信息，保存格式为：{ index : [ index_of_neighbor_nodes ] }

ind.cora.test.index : 保存测试集节点的索引，保存对象为：List，用于后面的归纳学习设置。

import numpy as np
import pickle as pkl
import networkx as nx
import scipy.sparse as sp
# from scipy.sparse.linalg.eigen.arpack import eigsh 不知道为什么这个报错
from scipy.sparse.linalg.eigen import arpack
import sys


def parse_index_file(filename):
    """Parse index file."""
    index = []