摸鱼大数据——Spark Structured Steaming——结构化流的编程综合案例

原创

于 2024-07-20 07:15:00 发布

· 809 阅读

18 ·

版权

文章标签：

#ajax #前端 #javascript #spark #大数据 #hive #zookeeper

7、综合案例

需求: 已知文件中存储了多个单词,要求计算统计出现的次数

7.1 词频统计_读取文件方式

 # 导包
 import os
 from pyspark.sql import SparkSession,functions as F
 
 # 绑定指定的python解释器
 os.environ['SPARK_HOME'] = '/export/server/spark'
 os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
 os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
 
 # 创建main函数
 if __name__ == '__main__':
     # 1.创建SparkContext对象
     spark = SparkSession.builder\
         .config('spark.sql.shuffle.partitions',1)\
         .appName('pyspark_demo')\
         .master('local[*]')\
         .getOrCreate()
 
     # 2.数据输入
     # 注意: 路径必须是目录路径,因为readStream会自动读取此目录下的所有文件,有新增会触发接着读
     df = spark.readStream\
         .format('text')\
         .load('file:///export/data/spark_project/structured_Streaming/data/')
 
     # 查看数据类型
     print(type(df))
     # 3.数据处理(切分,转换,分组聚合)

最低0.47元/天解锁文章

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

困了就倒头睡 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

打赏作者

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值