- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 SparkSQL
读json文件 df =spark.read.json(‘data/people.json’) 读csv文件 from pyspark import SparkConf from pyspark.sql import SparkSession import pyspark.sql.functions as f spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate() sc = spark.sparkContext data = s
2020-12-15 18:52:22
300
1
原创 RDD
创建RDD 从本地文件创建 # 1.初始化 SparkContext,该对象是 Spark 程序的入口 sc=SparkContext('local','sapp') # 文本文件 RDD 可以使用创建 SparkContext 的t extFile 方法。此方法需要一个 URI的 文件(本地路径的机器上,或一个hdfs://,s3a://等URI),并读取其作为行的集合 # 2.读取本地文件,URI为:/root/wordcount.txt rdd = sc.textFile('/roo
2020-12-15 18:50:24
205
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人