目录介绍
KDD_Benchmark:基准系统目录,根目录
1 data:数据目录,仅包含dataset
1.1 train_set:训练集文件夹
1.1.1 Train.authorIds.txt:训练集的所有作者列表,每一行为一个作者id
1.1.2 Train.csv:训练集。第一行为表头:AuthorId,ConfirmedPaperIds,DeletedPaperIds
。后面每行为对应Train.authorIds.txt文件中对应作者id确认写了的论文和确认不是他写的论文
1.2 valid_set:验证集文件夹
1.2.1 Valid.authorIds.txt:验证集的所有作者列表,每一行一个作者id
1.2.2 Valid.csv:验证集。第一行为表头:AuthorId,PaperIds
。后面每行为对应Valid.authorIds.txt文件中对应作者id需要检查是否是该作者的论文的论文id。
1.2.3 Valid.gold.csv:验证集的标准答案,第一行为表头,AuthorId,ConfirmedPaperIds,DeletedPaperIds
。后面每行为该行第一列作者id关于写没写过Valid.csv中论文的标准答案。
1.3 test_set:测试集文件夹(各个小组不同的测试集)
1.3.1 Test.authorIds.txt:测试集的所有作者列表
1.3.2 Test.csv:测试集,如Test.01.csv 是第一小组的测试集
1.4 Author.csv:作者数据集。第一行为表头,Id,Name,Affiliation,后面每一行为该id的作者的姓名和所属机构。
1.5 coauthor.json: 共作者数据,记录某作者的合作频率前十位的合作者,记录格式如下:
"2097153": {"450241": 3, "2018277": 1, "829512": 3, "1954441": 3, "1482510": 1, "1422127": 2, "1835