spark学习-streaming三种读取字节流方式

本文详细介绍Spark Streaming处理不同类型的实时数据流,包括文件流、套接字流和RDD队列流。通过具体实例,演示如何使用Python进行数据读取、处理及词频统计,适用于大数据实时处理场景。
部署运行你感兴趣的模型镜像

一.文件流(DSstream)

先创建文件:

cd /usr/local/spark/mycode
mkdir streaming
cd streaming
mkdir logfile
cd logfile
touch log1.txt
touch log2.txt

打开一个Linux终端窗口,进入shell命令提示符状态:

cd /usr/local/spark/mycode/streaming
vim TestStreaming.py

在TestStreaming.py中输入如下代码:

from operator import add
from pyspark import SparkContext, SparkConf
from pyspark.streaming import StreamingContext
conf = SparkConf()
conf.setAppName('TestDStream')
conf.setMaster('local[2]')
sc = SparkContext(conf = conf)
ssc = StreamingContext(sc, 20)
lines = ssc.textFileStream('file:///usr/local/spark/mycode/streaming/logfile')
words = lines.flatMap(lambda line: line.split(' '))
wordCounts = words.map(lambda x : (x,1)).reduceByKey(add)
wordCounts.pprint()
ssc.start()
ssc.awaitTermination()

保存成功后,执行在命令行中执行如下代码:

python3 TestStreaming.py

2.套接字流(Dstream)

套接字(socket)是一个抽象层,应用程序可以通过它发送或接收数据,可对其进行像对文件一样的打开、读写和关闭等操作。套接字允许应用程序将I/O插入到网络中,并与网络中的其他应用程序进行通信。网络套接字是IP地址与端口的组合。

Spark Streaming可以通过Socket端口监听并接收数据,然后进行相应处理。

先编写Socket服务端

cd/usr/local/spark/mycode/streaming/socket
vim DataSourceSocket.py
import socket
server=socket.socket()
server:blind('localhost',9999)
server:listen(1)
while 1:
    print('I am waiting the connect...')
    conn,addr=server.accept()
    print("Connect success!Connection is from %s" %addr[0])
    print('sending data')
    conn.send('what waht a a a i'.encode())
    conn.close()
    print('connection' is broken.')

新打开一个Shell窗口,进入Shell命令提示符状态,然后执行下面命令:

cd /usr/local/spark/mycode
mkdir streaming #如果已经存在该目录,则不用创建
vim NetworkWordCount.py

编辑NetworkWordCount.py

rom __future__ import print_function

import sys

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: network_wordcount.py <hostname> <port>", file=sys.stderr)
        exit(-1)
    sc = SparkContext(appName="PythonStreamingNetworkWordCount")
    ssc = StreamingContext(sc, 1)

    lines = ssc.socketTextStream(sys.argv[1], int(sys.argv[2]))
    counts = lines.flatMap(lambda line: line.split(" "))\
                  .map(lambda word: (word, 1))\
                  .reduceByKey(lambda a, b: a+b)
    counts.pprint()

    ssc.start()
    ssc.awaitTermination()

保存成功后,执行如下代码:

sudo nc -lk 9999

接着

cd /usr/local/spark/mycode/streaming/socket
/usr/local/spark/bin/spark-submit NetworkWordcount.py localhost 9999

然后打开第二个终端作为监听窗口,执行如下代码:

#启动客户端
cd /usr/local/spark/mycode/streaming
python3 NetworkWordCount.py localhost 9999

这样,就可以在nc第一个终端窗口窗口中随意输入一些单词,监听窗口就会自动获得单词数据流信息,在监听窗口每隔1秒就会打印出词频统计信息,大概会再屏幕上出现类似如下的结果:

-------------------------------------------
Time: 1479431100000 ms
-------------------------------------------
(hello,1)
(world,1)
-------------------------------------------
Time: 1479431120000 ms
-------------------------------------------
(hadoop,1)
-------------------------------------------
Time: 1479431140000 ms
-------------------------------------------
(spark,1)

如果要停止运行上述程序,按键盘Ctrl+Z

3.RDD队列流

在调试Spark Streaming应用程序的时候,我们可以使用streamingContext.queueStream(queueOfRDD)创建基于RDD队列的DStream。

下面是参考Spark官网的QueueStream程序设计的程序,每隔1秒创建一个RDD,Streaming每隔2秒就对数据进行处理。
请登录Linux系统,打开一个终端,进入Shell命令提示符状态,然后执行下面命令新建代码文件:

cd /usr/local/spark/mycode/streaming/ 
vim TestRDDQueueStream.py

上面用vim编辑器新建了一个TestRDDQueueStream.py文件,请在该文件中输入以下代码:

import time
 
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
 
if __name__ == "__main__":
 
    sc = SparkContext(appName="PythonStreamingQueueStream")
    ssc = StreamingContext(sc, 1)
 
    # Create the queue through which RDDs can be pushed to
    # a QueueInputDStream
    rddQueue = []
    for i in range(5):
        rddQueue += [ssc.sparkContext.parallelize([j for j in range(1, 1001)], 10)]
 
    # Create the QueueInputDStream and use it do some processing
    inputStream = ssc.queueStream(rddQueue)
    mappedStream = inputStream.map(lambda x: (x % 10, 1))
    reducedStream = mappedStream.reduceByKey(lambda a, b: a + b)
    reducedStream.pprint()
 
    ssc.start()
    time.sleep(6)
    ssc.stop(stopSparkContext=True, stopGraceFully=True)

执行代码:

python3 ./TestRDDQueueStream.py

执行结果:

-------------------------------------------                                     
Time: 1479522100000 ms
-------------------------------------------
(4,10)
(0,10)
(6,10)
(8,10)
(2,10)
(1,10)
(3,10)
(7,10)
(9,10)
(5,10)

 

您可能感兴趣的与本文相关的镜像

Python3.11

Python3.11

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

利用Spark Streaming开发网络字节流统计的步骤如下: 1. **环境搭建**: - 安装和配置Apache Spark- 确保Java、Scala或Python环境已安装并配置好。 2. **导入必要的库**: - 在你的开发环境中导入Spark Streaming相关的库。例如,如果你使用Scala,可以在`build.sbt`文件中添加: ```scala libraryDependencies += "org.apache.spark" %% "spark-streaming" % "3.3.0" ``` 3. **创建SparkConf和StreamingContext**: - 配置Spark应用程序并创建`StreamingContext`。 ```scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} val conf = new SparkConf().setAppName("NetworkByteStream").setMaster("local[*]") val ssc = new StreamingContext(conf, Seconds(1)) ``` 4. **定义数据源**: - 设置数据源,例如从TCP套接字读取数据。 ```scala val lines = ssc.socketTextStream("localhost", 9999) ``` 5. **处理数据**: - 对接收到的数据进行转换和处理。例如,统计每批次中的字节数。 ```scala val byteCount = lines.map(line => line.getBytes("UTF-8").length).reduce(_ + _) ``` 6. **输出结果**: - 将处理结果输出到控制台或其他存储系统。 ```scala byteCount.print() ``` 7. **启动流计算**: - 启动`StreamingContext`并等待程序终止。 ```scala ssc.start() ssc.awaitTermination() ``` 8. **关闭资源**: - 在程序终止时,确保正确关闭资源。 ```scala ssc.stop(stopSparkContext = true, stopGracefully = true) ``` 完整的示例代码如下: ```scala import org.apache.spark.SparkConf import org.apache.spark.streaming.{Seconds, StreamingContext} object NetworkByteStream { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("NetworkByteStream").setMaster("local[*]") val ssc = new StreamingContext(conf, Seconds(1)) val lines = ssc.socketTextStream("localhost", 9999) val byteCount = lines.map(line => line.getBytes("UTF-8").length).reduce(_ + _) byteCount.print() ssc.start() ssc.awaitTermination() ssc.stop(stopSparkContext = true, stopGracefully = true) } } ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值