
深度学习之广告推荐
段广东
毕业于华东理工大学,多年的数据科学方面的工作经验
展开
-
dnn模型参数调优经验
learning rate调优1)在数据集较小的情况下,nn的learning rate大于embed的learning rate模型的效果会更好,这主要是因为数据集小,模型无法收敛。而nn能更快的拟合数据集,导致效果会好一些;2)在数据充分的情况下,nn的learning rate小于embed的learning rate模型的效果会更好,在稀疏的工业场景下,embed的更新频率一般要低于nn,将embed的learning rate设置大一些会有更好的效果。同时这也是尽量让模型用embeding原创 2020-05-12 16:56:06 · 3114 阅读 · 0 评论 -
深度学习之蒸馏模型
蒸馏模型蒸馏模型的目的是为了将大模型/复杂模型学习到的东西传递给小模型。大模型将学习到的东西浓缩在输出值之中,输出值是一个0~1的概率值,我们称之为soft-target。可以通过设置温度T来调节输出值的分布,T越大得到的soft-target越软(均匀)。很显然假设复杂模型输出的solf target是100%准确的话,以0~1的soft target代替原样本中的[0, 1]这种hard ...原创 2020-02-20 15:43:23 · 1791 阅读 · 0 评论 -
推荐领域常见的dnn模型框架结构
dindin中文名深度兴趣网络,由阿里提出并使用到工业上。din主要解决的问题是multi-hot特征的处理方式。传统的multi-hot特征的处理方式大多都是对多个id embedding求均值作为该multi-hot特征最终对输入。din的思想是根据待预估的对象对multi-hot特征的id embedding进行加权计算均值。以我们在广告上的尝试作为例子对din的网络结构进行介绍。首先我...原创 2020-02-20 14:35:26 · 1941 阅读 · 0 评论 -
多目标学习之esmm
ctr/cvr联合训练是多目标学习的重要应用,在我们的广告推荐中被证实有效;背景:cvr模型训练的数据较少(ctr/cvr),却需要对整个大盘数据进行预估,这个不科学,因此希望能够利用到整个大盘对数据,比如show/ctr对数据;ctr/cvr联合训练将ctr的数据(show/ctr)也合并到cvr训练数据中,训练数据label由原来的二维表示是否转化调整成二维表示是否点击(第一维)和...原创 2020-02-19 23:25:53 · 832 阅读 · 1 评论