阿里推荐系统:dstn代码复现(二)
这篇博客只作为我在复现这篇代码的手记,如果能给其他人带来收获,就是意外之喜了。下面我将介绍我这几天对代码的一些理解,在这里我只做一个简单地概述。
在readme中提到了
样本数据
在“数据”文件夹中。
提供了4天的采样和重新格式化的Avito数据(带有ft索引的csv格式)(仅用于演示目的;整个数据集非常大)。由于数据量很小,因此测试结果可能在统计上不可靠。所以在后面给出全部的数据集地址
Full Avito data
这个链接是一个kaggle上早年的一个比赛,这个比赛是一个点击率预测的比赛。dstn这篇文章使用的是这个比赛提供的数据集。但是如果直接将这个比赛的数据集放到代码中这样是会报错的(别问我为什么知道,是因为我一开始就是这样做的,然后报错了,最后发现是数据集的问题,又仔细的看了readme才发现问题,从此之后我学会了仔细看readme的习惯)
我们需要将kaggle上提供的数据集处理成dstn需要的格式,具体的格式要求在readme中有说明。
而在数据说明中label,target one-hot fts等都在config_dstn.py中有定义,具体的如下图所示
剩下的就是对数据集进行处理,具体的处理过程在我具体实现后会在博客中进行更新。
cinfig_dstn.py文件中保存了这篇文章的所有的参数,这些参数在其他文件中也有用到;我们后续对这篇文章的模型进行修改的时候,也可以在参数上进行一些调整。