
Spark学习记录
loar_
这个作者很懒,什么都没留下…
展开
-
Spark学习记录:Spark SQL编程(2)
一、将RDD转换得到DataFrame RDD=>DataFrame,有三种情况两种方法,分别通过SparkSession对象的createDataFrame方法和RDD的toDF方法,转换生成DataFrame。 第一种情况,已知RDD的数据结构,采用createDataFrame()方法生成DataFrame。 #假设导入数据集为Data.txt,内容如(Mark,30) #导入相关库 from pyspark.sql import Row from pyspark import SparkCon原创 2022-05-20 01:30:10 · 541 阅读 · 0 评论 -
Spark学习记录:Spark SQL编程(1)
一、Spark SQL的理解。 Spark SQL模块就是利用SQL语言,使用Spark框架,实现对结构化数据的处理。 Spark SQL提供了一个叫DataFrame的数据模型(即带有Schema信息的RDD)。怎么理解这个DataFrame,就是一个个“有名有姓”,“有定义”的RDD的集合。本身RDD的数据并没有定义,DataFrame带有的Schema信息赋予了RDD中的数据特定的含义。 RDD与DataFrame和Pandas模块中的series与DataFrame关系很相似,可以借鉴理解。 二、S原创 2022-05-19 17:50:59 · 564 阅读 · 0 评论 -
Spark学习记录:RDD 编程
Spark学习记录,RDD编程原创 2022-04-19 23:18:17 · 1809 阅读 · 0 评论