使用Spark Streaming分析国泰安股票交易数据

本文介绍了一项基于SparkStreaming处理国泰安股票交易数据的小型项目。该项目在四台腾讯云服务器上搭建Spark运行环境,其中三台构成集群,一台作为MongoDB数据库服务器。文章详细阐述了数据准备、处理流程及代码实现,最终通过Web页面展示实时计算结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

 这个小程序是《云计算》这门课的一次小作业,实现过程涉及到挺多知识,主要使用Spark Streaming来处理流数据,该数据来自国泰安股票交易数据,程序实现上使用一个进程模拟写入HDFS或本地文件夹的流数据,使用另一个进程运行Spark程序处理流数据。

二、环境搭建

 

该程序的Spark运行环境搭建在四台腾讯云服务器上,其中有三台作为一个集群,另外一台使用MongoDB作为数据库服务器,存储原始数据和处理后的数据。对于集群,为了方便实现,这里使用Weave将这三台云主机连接在一起,成为一个局域网,然后为每台云主机中的Docker容易分配一个192.168.0.x/24的子网段,这些Docker容器用于充当一个Master或Slave结点,还有一个Docker容器用做Web服务器。

三、数据准备及处理

处理分析的数据来源于国泰安股票交易数据,下载并选择部分字段存储在MongoDB中。

然后通过Spark Streaming来处理这些原始数据。

先对原始数据进行flatMap以及映射操作,获得一个包含五个元素的元组 。

之后再对元组进行map操作。

最后将reduceByKey()后再进行map结果写入MongoDB数据库中。

最终获得处理之后的数据

四、代码实现

1、运行Spark程序处理流数据

 

2、模拟写入HDFS的数据流

3webserver的编写

五、结果展示

Web页面中展示实时计算结果 

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值