阿里推荐系统：dstn（二）

nlp小秃头

于 2021-05-06 22:22:42 发布

阅读量414

点赞数 1

分类专栏：实验记录文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/csdn__gao/article/details/116464068

版权

实验记录专栏收录该内容

2 篇文章

订阅专栏

这篇博客记录了作者复现阿里推荐系统 DSTN 模型的过程，主要涉及数据预处理和配置参数理解。作者分享了 Avito 数据集的处理方法，指出原始数据集需要转化为特定格式，并提供了配置文件 config_dstn.py 中的参数说明。文章强调了仔细阅读 README 的重要性，并预告将详细讲解数据处理步骤。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

阿里推荐系统：dstn代码复现（二）

这篇博客只作为我在复现这篇代码的手记，如果能给其他人带来收获，就是意外之喜了。下面我将介绍我这几天对代码的一些理解，在这里我只做一个简单地概述。

在readme中提到了

样本数据

在“数据”文件夹中。

提供了4天的采样和重新格式化的Avito数据（带有ft索引的csv格式）（仅用于演示目的；整个数据集非常大）。由于数据量很小，因此测试结果可能在统计上不可靠。所以在后面给出全部的数据集地址
Full Avito data
这个链接是一个kaggle上早年的一个比赛，这个比赛是一个点击率预测的比赛。dstn这篇文章使用的是这个比赛提供的数据集。但是如果直接将这个比赛的数据集放到代码中这样是会报错的（别问我为什么知道，是因为我一开始就是这样做的，然后报错了，最后发现是数据集的问题，又仔细的看了readme才发现问题，从此之后我学会了仔细看readme的习惯）
我们需要将kaggle上提供的数据集处理成dstn需要的格式，具体的格式要求在readme中有说明。

数据格式而在数据说明中label，target one-hot fts等都在config_dstn.py中有定义，具体的如下图所示

剩下的就是对数据集进行处理，具体的处理过程在我具体实现后会在博客中进行更新。

相关参数
cinfig_dstn.py文件中保存了这篇文章的所有的参数，这些参数在其他文件中也有用到；我们后续对这篇文章的模型进行修改的时候，也可以在参数上进行一些调整。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。