KDD2020 AutoGraph总结_autograph nas-优快云博客

本文链接：https://blog.youkuaiyun.com/m0_37584687/article/details/114811579

本文分享了参加KDDAutograph2020比赛的经验，包括使用GraphNas进行网络模型搜索、基于数据集元信息的模型选择、特征工程改进等，并详细介绍了获奖队伍的主要技术亮点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

研一下学期和组内同学一同参加了KDD Autograph2020的比赛，最后也拿到了第二名的成绩，下面对本次比赛做个总结。

使用GraphNas对数据集搜索最优网络模型。(引自 Gao Y, Yang H, Zhang P, et al. Graphnas: Graph neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1904.09981, 2019.)
使用决策树根据数据集元信息进行模型选择，如节点数、边数、平均度等。
特征工程，我们发现将lpa和对特征的预测概率分布加入到features中对于citation类型图数据集会有性能提升，将边关系矩阵作为特征对于一些图数据集也会有提升。
加入EarlyStop早停机制以及自适应的集成策略。

github代码
主要总结了特征工程部分的亮点：

drop_excessive_columns: 判断feature的稀疏性 (如果不是一般都是0, 那就用每个维度等于众数的比例作为其稀疏比例),
如果feature维度过大, 那就根据这个稀疏比例, 将超过超过2000的稀疏的series直接求和
special_data: 对有向图做了个特殊处理, 如果入度>出度的节点都属于同一类 (估计是通过eda观察到的),
那这些点就从图中去掉, 也能缓解一下类别不平衡
split_train_valid: 观察到训练测试集都是严格按照类别等比例划分的, 就做了StratifidShuffleSplit
对有向图无向图的特征工程分开来处理了
会对degree做一个分箱, max(30, nunique() / 10)这么几个区间
会增加1阶 / 2阶 / 3阶邻居的数量