KDD基准系统描述

本文详细介绍了KDD基准系统目录结构,包括data目录下的训练集、验证集和测试集,以及作者、共作者、会议、期刊、论文等相关数据集。此外,还涉及特征文件夹和模型文件夹的内容,如特征抽取、模型训练和评估方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录介绍

KDD_Benchmark:基准系统目录,根目录
1 data:数据目录,仅包含dataset
1.1 train_set:训练集文件夹
1.1.1 Train.authorIds.txt:训练集的所有作者列表,每一行为一个作者id
1.1.2 Train.csv:训练集。第一行为表头:AuthorId,ConfirmedPaperIds,DeletedPaperIds。后面每行为对应Train.authorIds.txt文件中对应作者id确认写了的论文和确认不是他写的论文
1.2 valid_set:验证集文件夹
1.2.1 Valid.authorIds.txt:验证集的所有作者列表,每一行一个作者id
1.2.2 Valid.csv:验证集。第一行为表头:AuthorId,PaperIds。后面每行为对应Valid.authorIds.txt文件中对应作者id需要检查是否是该作者的论文的论文id。
1.2.3 Valid.gold.csv:验证集的标准答案,第一行为表头,AuthorId,ConfirmedPaperIds,DeletedPaperIds。后面每行为该行第一列作者id关于写没写过Valid.csv中论文的标准答案。
1.3 test_set:测试集文件夹(各个小组不同的测试集)
1.3.1 Test.authorIds.txt:测试集的所有作者列表
1.3.2 Test.csv:测试集,如Test.01.csv 是第一小组的测试集
1.4 Author.csv:作者数据集。第一行为表头,Id,Name,Affiliation,后面每一行为该id的作者的姓名和所属机构。
1.5 coauthor.json: 共作者数据,记录某作者的合作频率前十位的合作者,记录格式如下:
"2097153": {"450241": 3, "2018277": 1, "829512": 3, "1954441": 3, "1482510": 1, "1422127": 2, "1835

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值