详细理论参照此处:https://zhuanlan.zhihu.com/p/58160982
说明
1.FM是一种LR基础上扩展的线性模型,在特征上做了两两组合上的信息挖掘,因为其高效性,既可以作为召回模型,也可以作为排序模型,并且在数据量非常大时,其相对于lightGBM这样的模型,可以做流式训练,能承载更大数据量的训练,比如在2018腾讯广告算法大赛中,top选手在复赛大数据量情况下,多使用FFM、DeepFFM这种由FM扩展的模型。
2.FM主要在线性模型基础上加入了特征间的关联关系,其式子如下:
但是针对于上式,一个很大的问题,用户交互矩阵往往是比较稀疏的,这样就会导致对w的估算存在很大的问题,因此这里使用了矩阵分解的思想,对交叉项系数w进行 如下的矩阵分解
我们称分解出的向量V为隐向量,V矩阵的第j列表示第j个特征的隐向量,从而可以将式子转换成如下的形式。
其中<vi,vj>表示点乘,隐向量长度为k(k<<n),这样变换后,二次项的系数个数减少至kn个,隐向量矩阵对应的形式如下。
经过V矩阵组合后,新