Spark构建推荐引擎之二：基于Spark Streaming 实时推荐计算

最新推荐文章于 2025-03-30 09:30:43 发布

原创

最新推荐文章于 2025-03-30 09:30:43 发布 · 4.7k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#个性推荐 #spark #Streaming

该博客介绍了如何使用Spark Streaming构建实时推荐引擎。首先，数据输入包括用户行为数据和物品相似矩阵。接着，通过Spark Streaming计算用户实时评分，并进行流式窗口处理。然后，利用相似矩阵和用户评分进行实时推荐计算。最后，将结果输出到指定目录。

1.1 数据输入模型

1）用户数据输入数据格式：

用户ID，物品ID，点击次数。

2）相似矩阵输入数据格式：

物品ID，物品ID，相似度

1.2 物品相似矩阵

采用SparkContext读取物品的相似矩阵：

//2 sc 读取相似矩阵

valsimi_path1 ="hdfs://192.168.180.100:9000/data/simi/simi.txt"

valsimi_rdd1 =sc.textFile(simi_path1,10)

valsimi_rdd2 =simi_rdd1.map(line => {

valfileds = line.split(",")

(fileds(0),fileds(1),fileds(2).toDouble)

})

simi_rdd2.cache()

1.3 用户实时评分计算

采用Spark Streaming实时计算用户的评分数据：

//3 构建Streaming对象

valssc =new StreamingContext(sc,batchDuration)

ssc.checkpoint("hdfs://192.168.180.100:9000/data/

最低0.47元/天解锁文章

新学期VIP享超值加赠

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

sunbow0

关注关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Spark(35) -- SparkStreaming -- 概述

erainm

10-07

668

1. Streaming 应用场景 2. Lambda 架构 3. Streaming 计算模式 4. SparkStreaming 计算思想 5. 什么是Spark Streaming 6. 为什么要学习Spark Streaming 7. SparkStreaming与Storm的对比

大数据项目实战：Spark基于内容的推荐算法（商品离线相似度计算）

weixin_37736146的博客

07-21

3004

1 条评论您还未登录，请先登录后发表或查看评论

如何基于Spark Streaming构建实时计算平台

weixin_34296641的博客

10-02

356

1、前言随着互联网技术的迅速发展，用户对于数据处理的时效性、准确性与稳定性要求越来越高，如何构建一个稳定易用并提供齐备的监控与预警功能的实时计算平台也成了很多公司一个很大的挑战。自2015年携程实时计算平台搭建以来，经过两年多不断的技术演进，目前实时集群规模已达上百台，平台涵盖各个SBU与公共部门数百个实时应用，全年JStorm集群稳定性达到100%...

如何基于 Spark Streaming 构建实时计算平台

GitChat

04-12

295

随着互联网行业的发展，人们对数据处理的时效性、可靠性以及准确性要求越来越高，实时计算也得到了蓬勃的发展。本次分享将着重于介绍携程基于 Spark Streaming，构建实时计算平台的整套技术方案、架构，目前的使用场景，以及打造平台过程中遇到的挑战和问题。实录提要： Metrics 性能监控，生产环境在一个 App 怎么加监控，怎么获取？能支持的最大消息并发是多少？在仅有一次和至少一次的场...

基于spark-streaming实时推荐系统

weixin_30311605的博客

10-23

753

基于spark-streaming实时推荐系统（一）基于spark-streaming实时推荐系统（二）基于spark-streaming实时推荐系统（三）转载于:https://www.cnblogs.com/zyber/p/9838451.html...

Spark Streaming

wz_TXWY的博客

09-27

427

Spark StreamingCreate Repository 导读介绍入门原理操作 Table of Contents 1. Spark Streaming 介绍 2. Spark Streaming 入门 2. 原理 3. 操作 1. Spark Streaming 介绍导读流式...

计算机课程毕设：基于ElasticSearch+Spark 构建高相关性搜索服务&千人千面推荐系统.zip

09-16

在现代互联网环境中，用户对于信息检索和个性化推荐的需求日益增长，这使得基于ElasticSearch和Spark构建高相关性搜索服务及千人千面推荐系统成为了一个重要的研究方向。本文将深入探讨这两个技术在这一领域中的应用...

24：Spark2.3.x Streaming实时计算.zip

03-08

Spark Streaming可以方便地与多种数据源和接收器集成，如Kafka、Flume、Twitter、ZeroMQ等，这使得它能广泛应用于日志分析、社交网络监控、实时推荐系统等多种实时计算场景。 **七、实战应用** 在实际应用中，Spark...

大数据实时分析实战：Flink与Spark Streaming

最新发布

shejizuopin的博客

03-30

967

随着大数据时代的到来，实时数据分析已成为企业获取即时洞察、优化操作和增强用户体验的关键工具。在大数据实时分析领域，Apache Flink和Apache Spark Streaming是两个备受瞩目的流处理框架。本文将结合优快云网站上的相关资源，深入探讨Flink与Spark Streaming在大数据实时分析中的实战技巧，并通过代码示例进行详细分析。Flink：Spark Streaming：1. 环境搭建首先，需要搭建Flink的开发环境。可以通过Maven或Gradle等构建工具来管理项目依赖。以下

基于 Spark Streaming 的电影推荐系统.zip

03-14

Spark Streaming通过将实时数据流分割成小的批处理任务（时间窗口），并借助Spark Core的强大计算能力进行处理，实现了高性能和高吞吐量。二、电影推荐系统基础电影推荐系统是一种典型的人工智能应用，它利用...

Spark Streaming全天候实时top N实现

KLordy的博客

01-17

3432

1. 背景介绍公司的日志平台是通过spark streaming消费kafka上的数据，解析完毕后直接存入到hdfs，然后到了每天凌晨通过pig脚本来对前一天的hdfs上的全量数据进行统计分析，得出前一天的日志的各项指标。全量的数据量一天通过lzo压缩后有大概4T，解压完估计得有40~50T。然后每天计算的指标有十个，有若干个指标是需要计算top n这种，而且pig脚本代码质量较差，有一些j...

通过Spark进行ALS离线和Stream实时推荐

huangyueranbbc的博客

11-23

4724

ALS简介 ALS是alternating least squares的缩写 , 意为交替最小二乘法；而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写，意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如：将用户(user)对商品(item)的评分矩阵分解为两个矩阵：一个是用户对商品隐...

大数据平台实战——实时推荐系统

boolbirdm的博客

06-20

1910

其次就是在答辩的时候老师提出的我不在流里边进行推荐发送和文件应该覆盖存储的问题，由于时间关系我解决了第一个，思路是离线训练模型，在线调用训练好的模型进行推荐处理。打开一个Kafka消息发送窗口，单独使用一个Topic，发送用户ID和他浏览的商品ID给Spark Streaming，程序应考虑到用户的并发访问，要支持多个用户ID同时发送和处理。最后经过这两周的实践课，自己感觉对于流处理实时处理的流程，大致细节有了更多的了解，对于自己以后的学习也会更加的努力和坚定。打开接收端接收返回每个用户的推荐商品。

基于spark-streaming实时推荐系统（二）

热门推荐

博客内容皆为原创

11-26

1万+

电子商务时代，商家急切的寻求着对用户展示商品达到千人千面的效果，并且实时根据用户行为去实时更新待推荐的商品集。正如百度大boos李彦宏同学在乌镇物联网大会上所说:"机器学习的时代即将到来。" 博主从事推荐系统开发设计五年有余，深深的触摸到了机器学习时代的影子，从刚开始接触推荐，到先如今各大电子商务平台，甚而流媒体平台等都是搭建自己的推荐系统平台，让机器去学习用户的行为以便达到精准营销的目标。

基于Spark机器学习和实时流计算的智能推荐系统

12-20

1万+

原文链接：http://blog.youkuaiyun.com/qq1010885678/article/details/46675501 概要：随着电子商务的高速发展和普及应用，个性化推荐的推荐系统已成为一个重要研究领域。个性化推荐算法是推荐系统中最核心的技术，在很大程度上决定了电子商务推荐系统性能的优劣，决定着是否能够推荐用户真正感兴趣的信息，而面对用户的不断提升的需求，推荐系统不仅需

基于Spark MLlib和Spark Streaming实现准实时分类

光于前裕于后的博客

05-21

949

环境版本： ·Spark 2.0 ·Scala 2.11.8 在网上搜索Spark MLlib和Spark Streaming结合的例子几乎没有，我很疑惑，难道实现准实时预测有别的更合理的方式？望大佬在评论区指出。本篇博客思路很简单，使用Spark MLlib训练并保存模型，然后编写Spark Streaming程序读取并使用模型。需注意的是，在使用Spark MLlib之前我使用了python查看分析数据、清洗数据、特征工程、构造数据集、训练模型等等，且在本篇中直接使用了python构造的数据集。

Spark学习笔记（14）——Spark Streaming 数据累加的案例

一角残叶的博客

10-24

1824

Spark-Streaming缓存计算结果，Wordcount累加求和

Master_chaoAndQi的博客

10-05

1151

一 updateStateByKey 函数声明： def updateStateByKey[S: ClassTag]( updateFunc: (Seq[V], Option[S]) => Option[S]): DStream[(K, S)] 需求：对上次计算的结果进行缓存，在应用重启后，加载上次计算的结果，这里从scoket中读取流数据在这里插入代...

Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

weixin_34408717的博客

11-18

276

本套技术专栏是作者（秦凯新）平时工作的总结和升华，通过从真实商业环境抽取案例进行总结和分享，并给出商业应用的调优建议和集群环境容量规划等内容，请持续关注本套博客。版权声明：禁止转载，欢迎学习。QQ邮箱地址：1120746959@qq.com，如有任何商业交流，可随时联系。 1 Spark ML流式在线学习初步讲解目前SparkStreaming 支持Streaming Linear Regres...

大数据项目实践：基于Apache Spark和Kafka的推荐引擎

在这个小项目中，开发者利用了从大数据专家课程中学到的知识，将Apache Spark Streaming、Kafka、MongoDB和Spark MLlib等技术整合在一起，构建了一个实时推荐引擎。通过这个项目，不仅展示了如何处理大规模实时数据...