7、综合案例
需求: 已知文件中存储了多个单词,要求计算统计出现的次数
7.1 词频统计_读取文件方式
# 导包 import os from pyspark.sql import SparkSession,functions as F # 绑定指定的python解释器 os.environ['SPARK_HOME'] = '/export/server/spark' os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3' os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3' # 创建main函数 if __name__ == '__main__': # 1.创建SparkContext对象 spark = SparkSession.builder\ .config('spark.sql.shuffle.partitions',1)\ .appName('pyspark_demo')\ .master('local[*]')\ .getOrCreate() # 2.数据输入 # 注意: 路径必须是目录路径,因为readStream会自动读取此目录下的所有文件,有新增会触发接着读 df = spark.readStream\ .format('text')\ .load('file:///export/data/spark_project/structured_Streaming/data/') # 查看数据类型 print(type(df)) # 3.数据处理(切分,转换,分组聚合)