FM (Factorization Machines)因子分解机
FM算法的目的是:解决稀疏数据下的特征组合问题。 核心:在于特征组合,以此来减少人工参与特征组合。 用途:被广泛应用于广告推荐等CTR(Click-Through-Rate,点击通过率)预估场景。
优势:
-
1.处理数据高度稀疏的场景;
-
2.具有线性的计算复杂度;
-
3.能够在任意的实数特征向量中生效;
-
4.对输入要求低,能够灵活处理各种格式的数据;
one-hot编码转换后都会导致样本数据的稀疏性和特征空间变大。经过特征关联组合,可以提高label之间的相关性。例如“女性”和“化妆品类商品”,“男性”和“酒类商品”,“电影”和“电影票类商品”。表示特征之间的关联,最直接的方法就是构造组合特征。样本中特征之间的关联信息在one-hot编码和浅层学习模型(如LR,SVM)是做不到的。目前主要有2种手段得到组合特征。
-
1)人工特征工程(数据分析+人工构造)
-
2)通过模型做组合特征学习(FM/FFM方法、深度学习方法)
本文纯粹是个人总结,内容简要浅显。