用户点击行为实时分析系统spark

本文介绍了一个基于用户浏览新闻日志的实时分析系统设计,涵盖了从数据采集到展示的全流程,包括Flume、Kafka、Spark Streaming等技术的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

系统设计技术有:
Hadoop2.x
Zookeeper
Flume
Hive
Hbase
Kafka
Spark2.x
Spark Streaming
Structured Streaming
MySQL
Hue
JavaEE
WebSocket
Echarts

1.1案例需求分析:

主要是基于用户浏览新闻的日志信息进行分析的.我们主要的业务需求有以下几个方面:
完成用户浏览日志信息的收集.
完成实时分析前20名流量最高的话题.
完成实时统计当前线上已经曝光的新闻的话题
完成数据报表的开发

 

1.2 系统架构图设计

调度层:zookeeper 管理工具: 开发工具:IDEA 分析工具:HUE
展示层: 统计查询/报表 hue 数据可视化分析 h5+echarts
接口层:通信协议 http/websocket 数据协议:xml/json
服务层: java/scala
计算层: 流式计算框架 streaming 离线计算框架 mapreduce 内存计算框架 spark
统一资源资源管理框架 HDFS
存储层:分布式消息队列 kafka mysql hbase hive 分布式文件系统hdfs
采集层:DB数据处理工具sqoop 日志采集框架 flume
数据源层: database logfile

 1.3 系统数据流程设计

实时流:
应用服务 ---- flume ----kafka zookeeper----yarn sparking streaming scala--- mysql hbase--websocket--h5+echarts页面展示

离线流:
应用服务 ---- flume---hbase zookeeper--hdfs--mapreduce spark sql hive yarn --hue --mysql -java服务-bi报表

 

转载于:https://www.cnblogs.com/daiwei1981/p/10033735.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值