基于新一代MetaSpore平台快速搭建工业级推荐系统

元灵数智

已于 2022-07-15 18:45:27 修改

阅读量1.1k

点赞数 1

文章标签：机器学习大数据算法推荐算法人工智能

于 2022-04-01 18:50:46 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_56712350/article/details/123897218

版权

本文通过MetaSpore平台逐步构建一个电影推荐系统，涵盖环境安装、数据处理、召回算法、排序算法及在线系统搭建。MetaSpore提供一站式机器学习开发，支持离线训练和在线推理，包含深度学习训练框架、高性能在线服务等功能。文章以MovieLens-1M数据集为例，详细讲解推荐系统的关键步骤，包括数据预处理、正负样本生成、CTR模型、双塔模型和LightGBM模型的实现，并介绍在线系统与实验框架，帮助读者理解推荐系统架构并快速实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，附上Github链接

LakeSoul：https://github.com/meta-soul/LakeSoul

导读

推荐系统是当前互联网产品中非常重要的组成部分。对于互联网平台来说，一个好的推荐场景不但可以快速提升点击率、互动率等短期业务指标，同时对于DAU、用户满意度、回访率等偏长期用户指标及用户体验都有好的助益。那么，你是否也想DIY一个类似的信息流推荐系统呢？

这篇文章会帮助读者基于MetaSpore平台一步一步构建一个属于自己的电影推荐系统，同时，整个系统具有很强的扩展性。我们实现了近年来在工业界经典的排序算法和召回算法，并且软件接口设计统一，无论在线还是离线相关算法只需要少量代码和配置修改就可以应用到实际的业务中。

关于MetaSpore

MetaSpore是由数元灵出品的开源一站式机器学习开发平台，提供从数据预处理、模型训练、离线实验、在线推理、在线应用框架的全流程框架和开发接口。我们希望用户可以在MetaSpore的通用组件的基础上，通过低代码的方式就可以快速创建集分布式机器学习训练、高性能模型推理、高可用AB实验框架等能力于一身的工业级AI系统。

MetaSpore 具有如下几个特点：

一站式端到端开发，从离线模型训练到在线预测和分桶实验调试，全链路统一的开发体验；
完善的深度学习训练框架，兼容 PyTorch 用户生态，支持分布式大规模稀疏特征学习
训练框架与 PySpark 打通，无缝读取数据湖和数仓上的训练数据；
高性能在线推理服务，支持神经网络、决策树、Spark ML、SKLearn 等多种模型；支持异构计算推理加速；
在离线统一特征抽取框架，自动生成线上特征读取逻辑，统一特征抽取逻辑；
在线算法应用框架，提供模型预测、实验分桶切流、参数动态热加载和可视化的 Debug 功能；
丰富的行业算法示例和端到端完整链路解决方案。

同时，MetaSpore也是遵守Apache License 2.0的开源项目，我们在GitHub 项目中提供了标准案例与代码教程，项目的新功能和使用文档也正在持续丰富中。

1.典型推荐系统架构

一般来说，典型推荐系统会包括在线和离线两部分，如下图所示：

图中上半部分为系统的在线部分，包括用户建模、召回、排序、重排、取摘要等几个部分。这个部分一般使用Java、C++或者Python系统开发，好的系统设计能让算法服务高效且易扩展。当用户从手机端APP发起请求后，服务会经历这些部分的处理，最终给出展示的结果。

图中下半部分为系统的离线部分，一般来说这个部分主要是系统不同阶段的排序模型，比如：在召回阶段可能是用协同过滤或者基于图论的方法，甚至是基于神经网络的方法，做用户与物料之间或者候选物料之间中的相似度的计算与排序；而在排序、重排阶段，则一般是通过复杂机器学习模型方法（如超大规模在线学习的深度模型）建模最终业务指标并进行排序。大量日常优化工作会集中在离线的模型迭代上。

接下来的内容，我们会以MovieLens-1M数据集作为案例，围绕着：MetaSpore环境安装、数据处理与样本生成、召回算法、排序算法、在线系统与实验框架等5个部分来向读者展开一个工业级推荐系统的搭建过程。一些重点的部分我们会有代码和图示，并且会在文章的最后附带我们在github代码链接。

那么我们一起开始探索推荐系统之旅吧！

2.MetaSpore环境安装

首先，可以到我们的代码仓库：MetaSpore项目(https://github.com/meta-soul/MetaSpore)中找到离线训练环境安装说明并安装和配置好模型训练和服务的基础环境。

其次，在这个Demo的项目里，我们使用MoiveLens-1M这个数据集来演示。这份数据集在推荐领域非常著名，可以从给出的官网链接(https://grouplens.org/datasets/movielens/1m/)中下载，并存储在您的云端/本地存储上。

最后，在MovieLens Demo项目offline目录中找到离线训练模型的使用说明，并训练好模型。最后需要在MovieLens Demo项目online目录中找到在线Java环境的安装说明，并运行相应的配置脚本。后面我们将在这一章的基础上一步一步搭建我们的系统，在您移步到其他章节之前，请您确保以上的环境已经在您的服务器上已经配置完成。

3.数据处理与样本生成

一般来说数据方面的工作，包括：日志清洗、样本处理、特征挖掘、实验效果追踪与分析等方面的工作，可能会占一个典型应用算法工程师70%的时间，甚至更多。而一个算法项目最终是否能取得线上业务指标的收益，数据方面的工作至关重要。我们这里是个Demo的原型系统，数据分析部分我们会针对MovieLens 1M的数据集做简要的分析，而特征方面的工作，由于和模型更紧密，我们会和对应的模型来一起说明，这里主要说明一下数据基础操作和样本生成的过程。

3.1数据分析

针对MovieLens 1M的数据，这个数据集中一共包含了6040个用户对3883部电影进行评价。我们在这里简要的做下数据分析：

首先，分析一下电影的评分的分布情况，通过下面的饼图可以看到，相对来说，用户其实是更倾向于给电影打高分的（评分>3），原因可能是用户更可能给自己喜欢电影进行点评；