离线训练和在线训练模式

最新推荐文章于 2025-03-05 10:18:56 发布

maomaogo

最新推荐文章于 2025-03-05 10:18:56 发布

阅读量6.5k

点赞数 1

分类专栏：推荐系统文章标签：机器学习数据挖掘深度学习推荐系统算法

本文链接：https://blog.youkuaiyun.com/yushiyin1314/article/details/105602285

版权

本文探讨离线训练和在线预测在机器学习中的应用，包括模型上线的各种方式，如R+pmml+spark+airflow、python+sklearn、xgboost+spark+xgb4j、tensorflow+java库、keras+Flask等，强调了语言一致性、并发性和响应时间在不同场景下的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

离线训练和在线训练模式

本文主要是说明一些在线预测和离线训练的设计问题，一般地离线训练性能要求低，耗时严重。在线预测就根据不同的场景要求相差比较大，比如是常见的电商推荐等要求实时推荐，这个在线预测就需要好好设计，总不能你在线预测去加载离线模型都要很久，这样很影响用户体验。

离线模型的加载用于在线预测，更加模型类别、系统、语言等方面会有不同，比如说一般的有明确的数学表达式模型，比如LR、FM等，其实我只需要拿到模型训练的参数就行，其他的信息对我在线预测影响不大。这种情形下在线使用就比较灵活，可以直接将参数保存到redis或者hbase，这样在线预测会非常快。再比如树模型，这种就不适合，需要保存树的一些节点信息，这些信息是模型的关键，无法舍弃。这种模型一般需要考虑把模型按照文件方式存放，然后进行加载。

下面介绍几种目前存在的几种模型上线的方式

1、R+pmml+spark+airflow调度

用R语言训练模型并转为pmml文件，然后我们使用spark将这个pmml文件封装为jar，使用airflow提交到yarn。具体方法：
val is: InputStream = fs.open(path)
val pmml: PMML = PMMLUtil.unmarshal(is)
modelEvaluator = ModelEvaluatorFactory.newInstance.newModelEvaluator(pmml)

2、python+sklearn+airflow调度

其他团队使用python训练好sklearn模型，并joblib.dumps(