这里通过设计一套商品推荐系统来分析解析Spark中提供算法对大数据从场景下业务的支持。
1. 机器学习系统设计及架构
这里以推荐系统为例,假设存在一个贴近现实的情景。假设我们受命领导MovieStream数据科学团队。MovieStream是一家假想的互联网公司,为用户提供在线电影和电视节目的内容服务。
MovieStream现有系统可概括为:


如图所示,向用户推荐哪些电影和节目以及在站点的何处显示,都由MovieStream内容编辑团队负责。该团队还负责MovieStream的群发营销,包括电子邮件和其他直销渠道。现阶段,MovieStream以汇总的方式来收集用户的电影浏览记录,并能访问一些用户注册时所填写的资料。此外,他们还能访问其所收录的电影的一些基本元数据。
随着业务快速发展,新发布的电影和用户的活动不断增加,MovieStream团队愈发难以跟上这样的趋势。MovieStream的CEO之前对大数据,机器学习和人工智能有过较多的了解。他希望我们能为MovieStream创建一个机器学习系统,以处理现在由内容团队人工处理的许多内容。
接下来提出机器学习对MovieStream
本文探讨了SparkMllib在机器学习系统设计及架构中的应用,特别是在个性化推荐、目标营销、预测建模等领域。通过对电影推荐系统的设计,阐述了机器学习在数据驱动的系统中的作用,包括数据获取、预处理、模型训练与测试,以及模型部署和监控。SparkMllib提供了丰富的算法支持,如分类、回归、聚类和推荐算法,适用于大数据场景下的业务解决方案。
订阅专栏 解锁全文
1605

被折叠的 条评论
为什么被折叠?



