一、提出动机
为了解决矩阵分解和协同过滤不⽅便加⼊⽤户、物品和上下⽂相关的特征从而不能充分利用有效信息进行推荐以及在缺乏历史行为时不能为用户进行推荐的缺点,逻辑回归模型凭借其天然的融合不同特征的能⼒,逐渐 在推荐系统领域得到更⼴泛的应⽤。
相⽐协同过滤模型仅利⽤⽤户与物品的相互⾏为信息进⾏推荐, 逻辑回归模型能够综合利⽤⽤户、物品、上下⽂等多种不同的特征, ⽣成较为“全⾯”的推荐结果。
二、逻辑回归模型在推荐系统中的应用
逻辑回归将推荐问题看成⼀个分类问题,通过预测正样本的概率对物品进⾏排序。这⾥的正样本可以是⽤户“点击”了某商品,也可以是⽤ 户“观看”了某视频,均是推荐系统希望⽤户产⽣的“正反馈”⾏为。因 此,逻辑回归模型将推荐问题转换成了⼀个点击率CTR预估问题。
2.1、基于逻辑回归模型的推荐流程
- 将⽤户年龄、性别、物品属性、物品描述、当前时间、当前地点等特征转换成数值型特征向量。
- 确定逻辑回归模型的优化⽬标(以优化“点击率”为例),利 ⽤已有样本数据对逻辑回归模型进⾏训练,确定逻辑回归模型的内部 参数。
- 在模型服务阶段,将特征向量输⼊逻辑回归模型,经过逻辑 回归模型的推断,得到⽤户“点击”(这⾥⽤点击作为推荐系统正反馈 ⾏为的例⼦)物品的概率。
- 利⽤“点击”概率对所有候选物品进⾏排序,得到推荐列表。
重点在于,利⽤样本的特征向量进⾏ 模型训练和在线推断。
2.2、逻辑回归模型简介——推断过程
逻辑回归模型的推断过程可以分为如下⼏步:
(1)将特征向量x=(x1,x2,…,xn)作为模型的输⼊。
(2)通过为各特征赋予相应的权重(w1,w2,…,wn+1),来表 ⽰各特征的重要性差异,将各特征进⾏加权求和,得到x Tw。
(3)将xTw输⼊ sigmoid 函数,使之映射到 0~1 的区间,得到最 终的“点击率”。
综上,逻辑回归模型整个推断过程的数学形式
2.3、逻辑回归模型简介——训练过程
对于标准的逻辑回归模型来说,要确定的参数就是特征向量相应 的权重向量w。
梯度下降法是⼀个⼀阶最优化算法,也称为最速下降法。应⽤梯 度下降法的⽬的是找到⼀个函数的局部极⼩值。为此,必须沿函数上 当前点对应梯度(或者是近似梯度)的反⽅向进⾏规定步长距离的迭代搜索。
如图所⽰,梯度下降法很像寻找⼀个盆地最低点的过程。那 么,在寻找最低点的过程中,沿哪个⽅向才是下降最快的⽅向呢?
这就利⽤了“梯度”的性质:如果实值函数F(x)在点x0处可微且有 定义,那么函数F(x)在点x0处沿着梯度相反的⽅向-∇F(x)下降最 快。
因此,在优化某模型的⽬标函数时,只需对⽬标函数进⾏求导, 得到梯度的⽅向,沿梯度的反⽅向下降,并迭代此过程直⾄寻找到局 部最⼩点。
使⽤梯度下降法求解逻辑回归模型的第⼀步是确定逻辑回归的⽬标函数。
在⽤梯度下降求解时 都遵循其基本步骤。问题的关键在于利⽤模型的数学形式找出其⽬标 函数,并通过求导得到梯度下降的公式。
三、为什么使用逻辑回归而不是线性回归
逻辑回归作为广义线性模型的一种,他的假设是因变量y服从伯努利分布。那么在 CTR预估这个问题上,“点击”事件是否发⽣就是模型 的因变量 y,⽽⽤户是否点击⼴告是⼀个经典的掷偏⼼硬币问题。因 此,CTR模型的因变量显然应该服从伯努利分布。所以,采⽤逻辑回 归作为 CTR 模型是符合“点击”这⼀事件的物理意义的。
与之相⽐,线性回归作为⼴义线性模型的另⼀个特例,其假设是 因变量y服从⾼斯分布,这明显不是点击这类⼆分类问题的数学假设。
四、逻辑回归的优点
- 可解释性强:直观地讲,逻辑回归模型⽬标函数的形式是各特征的加权和,再施以sigmoid函数。使⽤各特征的加权和是为了综合不同特征对 CTR 的影响,⽽不同特征的重要程度不⼀样,所以为不同特征指定不同的权重,代表不同 特征的重要程度。最后,通过sigmoid函数,使其值能够映射到0~1区 间,正好符合CTR的物理意义。
- 易于并⾏化、模型简单、训练开销⼩
五、逻辑回归的缺点
表达能⼒不强,⽆法进⾏特征交 叉、特征筛选等⼀系列较为“⾼级”的操作,因此不可避免地造成信息 的损失。