导言:一般是从离线数据中学习得到,离线数据是保存在Hive中的,通过机器学习算法将Hive中的数据进行分析,得到一个pCtr模型;
对于在线工程而言,实现一个通过配置把离线模型加载进去的在线部分,的确没什么工作量,几行代码;但,要实现一个真正强的在线部分,都要几周时间完成;
一、离线部分
粗糙版就是python单机就可以
步骤:join、norm、binarize、train
join:多个数据源的数据通过key进行jion,得到数据
Norm、Binaries是对数据进行变换;LR算法决定,其实现行的模型要对数据进行变换

本文探讨CTR预估模型的构建过程,包括从Hive中获取离线数据进行join、norm、binarize和train四个步骤。重点讨论了LR模型中的交叉特征、正则化和二值化的重要性,并指出在线工程实现模型加载的挑战。
最低0.47元/天 解锁文章
3554

被折叠的 条评论
为什么被折叠?



