Spark Streaming的实时词频和累加词频统计

本文介绍如何使用Python在Ubuntu环境下,通过PyCharm实现对Socket端口传输的英文数据进行时段统计和累加统计。详细讲解了利用DStream成员函数如flatMap、map、reduceByKey及updateStateByKey对数据进行分词并统计单词频率的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

(注:运行环境是Ubuntu16, pycharm)

1、

按时段统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计各个时间段内每个单词出现的次数(每个时间段都分别统计,需要使用的关键的DStream成员函数:flatMap, map, reduceByKey)。

checkpoint是设置检查点,实时统计不需设置,累加统计时需要。

运行结果:

打开terminal ,输入 :nc -lp 9999   回车   (9999是端口号,可以是随意的数字,但是要与第5行代码设置的端口号一致)

 

控制台输出的结果:

 

2、

累加统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计历史时间段内每个单词累计出现的次数(所有时间段都共一个统计数,需要使用的关键的DStream成员函数:flatMap, map, updateStateByKey)。

(导入的包、实例化、设置端口与上一步一致,且要设置检查点,设置命令看上一步第6行代码)

运行结果:

 

转载于:https://www.cnblogs.com/chjie/p/10980821.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值