(读论文)推荐系统之CTR预估-MLR算法模型

本人才疏学浅,不足之处欢迎大家指出和交流。

今天继续带来传统模型之MLR算法模型,这是一篇来自阿里盖坤团队的方案(LS-PLM),发表于2017年,但实际在2012年就已经提出并应用于实际业务中,当时主流仍然是我们上一篇提到过的的LR模型,而本文作者创新性地提出了MLR(mixed logistic regression, 混合逻辑斯特回归)算法,引领了广告领域CTR预估算法的全新升级。总的来说,MLR算法创新地提出并实现了直接在原始空间学习特征之间的非线性关系,基于数据自动发掘可推广的模式,相比于人工来说效率和精度均有了大幅提升。下面我们一起来了解下细节。

原文:《Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction》

1、背景

CTR预估(click-through-rate prediction)是广告行业比较常见的问题,根据用户的历史行为来判断用户对广告点击的可能性。在常见工业场景中,该问题的输入往往是数以万计的稀疏特征向量,在进行特征交叉后会维数会更高,比较常见的就是采用逻辑回归模型加一些正则化,因为逻辑回归模型计算开销小且容易实现并行。之前提到的facebook的一篇论文(LR+GBDT)中先用树模型做分类之后再加一个逻辑回归模型,最后得出效果出奇的好,应该也是工业界比较常用的方法,同时树模型的选择或者说是再构造特征的特性也逐渐被大家所关注。另一种比较有效的就是因子分解模型系列,包括FM及其的其他变种,它们的主要思想就是构造交叉特征或者是二阶的特征来一起进行训练。

这篇文章中,作者主要提出了一种piece-wise的线性模型,并且给出了其在大规模数据上的训练算法,称之为LS-PLM(Large Scale Piecewise Linear Model),LS-PLM采用了分治的思想,先分成几个局部再用线性模型拟合,这两部都采用监督学习的方式,来优化总体的预测误差,总的来说有以下优势:

  • 端到端的非线性学习: 从模型端自动挖掘数据中蕴藏的非线性模式,省去了大量的人工特征设计,这 使得MLR算法可以端到端地完成训练,在不同场景中的迁移和应用非常轻松。通过分区来达到拟合非线性函数的效果;

  • 可伸缩性(scalability):与逻辑回归模型相似,都可以很好的处理复杂的样本与高维的特征,并且做到了分布式并行;

  • 稀疏性: 对于在线学习

APCS-MLR(Antigen Presenting Cell Model for Machine Learning and Receptor)是一个用于机器学习和受体研究的免疫细胞模型。实现APCS-MLR模型可以使用多种软件来进行仿真和建模。 一种常用的软件是MatLab(Matrix Laboratory), MatLab是一种高级技术计算语言和环境,用于数值计算、仿真和数据可视化。通过编写MatLab脚本或函数,可以实现APCS-MLR模型的各个方面,包括细胞行为、受体交互和机器学习算法。MatLab提供了丰富的科学计算工具箱和图形用户界面,便于实现与APCS-MLR相关的模型建立、数据分析和可视化。 另外,Python语言也是一个常用的选择。Python是一种高级编程语言,具有广泛的科学计算库和机器学习框架,例如NumPy、SciPy和Scikit-learn。使用Python可以编写脚本或函数来实现APCS-MLR模型,同时利用这些库进行数据处理、可视化和模型训练。Python具有简洁的语法和丰富的第三方库支持,使得实现APCS-MLR模型更加方便和灵活。 除了MatLab和Python,还有其他一些软件工具如NetLogo、Simulink和CellDesigner也可以用于实现APCS-MLR模型。这些工具在生物建模和仿真领域有着广泛的应用,并提供了各种功能和工作流程来支持细胞行为模拟、受体交互和机器学习算法的实现。 总之,实现APCS-MLR模型的软件选择主要取决于研究者的偏好和背景,MatLab和Python是最常见和受欢迎的选择,但也可以根据具体需求选择其他适合的软件工具。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值