阿里推荐系统:dstn(二)

这篇博客记录了作者复现阿里推荐系统 DSTN 模型的过程,主要涉及数据预处理和配置参数理解。作者分享了 Avito 数据集的处理方法,指出原始数据集需要转化为特定格式,并提供了配置文件 config_dstn.py 中的参数说明。文章强调了仔细阅读 README 的重要性,并预告将详细讲解数据处理步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

阿里推荐系统:dstn代码复现(二)

这篇博客只作为我在复现这篇代码的手记,如果能给其他人带来收获,就是意外之喜了。下面我将介绍我这几天对代码的一些理解,在这里我只做一个简单地概述。

在readme中提到了
样本数据
样本数据

在“数据”文件夹中。

提供了4天的采样和重新格式化的Avito数据(带有ft索引的csv格式)(仅用于演示目的;整个数据集非常大)。由于数据量很小,因此测试结果可能在统计上不可靠。所以在后面给出全部的数据集地址
Full Avito data
这个链接是一个kaggle上早年的一个比赛,这个比赛是一个点击率预测的比赛。dstn这篇文章使用的是这个比赛提供的数据集。但是如果直接将这个比赛的数据集放到代码中这样是会报错的(别问我为什么知道,是因为我一开始就是这样做的,然后报错了,最后发现是数据集的问题,又仔细的看了readme才发现问题,从此之后我学会了仔细看readme的习惯)
我们需要将kaggle上提供的数据集处理成dstn需要的格式,具体的格式要求在readme中有说明。

缩写

数据格式而在数据说明中label,target one-hot fts等都在config_dstn.py中有定义,具体的如下图所示
参数

剩下的就是对数据集进行处理,具体的处理过程在我具体实现后会在博客中进行更新。

相关参数
cinfig_dstn.py文件中保存了这篇文章的所有的参数,这些参数在其他文件中也有用到;我们后续对这篇文章的模型进行修改的时候,也可以在参数上进行一些调整。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值