spark获得RDD和DateFrame的方法

最新推荐文章于 2023-11-22 17:35:52 发布

weixin_39070689

最新推荐文章于 2023-11-22 17:35:52 发布

阅读量233

点赞数

CC 4.0 BY-SA版权

分类专栏： bigdata 文章标签： spark rdd dataframe

本文链接：https://blog.youkuaiyun.com/weixin_39070689/article/details/81714185

bigdata 专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍Spark中RDD和DataFrame的创建与转换方法，包括makeRDD、parallelize、textFile等函数的应用，以及如何从HDFS和本地文件系统读取数据。同时，深入探讨了DataFrame的创建方式，如通过SQL、createDataFrame和直接读取JSON、Parquet、CSV文件等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RDD

makeRDD

$ val rdd = scc.makeRDD(Seq("value1", "value2", "value3"));

parallelize

$ val rdd = sc.parallelize(Seq("value", "value1", "value2"))

textFile

// local file
$ val rdd = sc.textFile("file:///home/person1");

// hdfs file
val rdd1 = sc.textFile("hdfs:///user/person")

val df : DataFrame = new HiveContext().sql("select name,id from tmp")
val rdd = df.rdd

DataFrame

toDF

$ val df = Seq(
  (1, "First Value", java.sql.Date.valueOf("2018-05-01")),
  (2, "Second Value", java.sql.Date.valueOf("2018-08-01"))
).toDF("int_column", "string_column", "date_column")

val rdd = sc.makeRDD(Seq("xd","das","da")).map(x => (x,1)).toDF("name", "age")

$ val hive = new HiveContext(sc)
$ val df = hive.sql("select * from person")

createDataFrame

import org.apache.spark.sql.types._
val hive = new HiveContext(sc)
val schema = StructType(Array(
StructField("name", StringType， nullable = false),StructField("age", IntegerType, nulable = false), StructField("code", StringType, nullable=true)
))

val rdd = sc.parallelize(Seq(
Row("name",32，"42332"),
Row("name1",42,"4234")
))

val df =hive.createDataFrame(rdd, schema)

直接读取文件

$ val df = sc.read.json("/home/person.json")

$ val df = sc.read.parquet("hdfs:/user/file")

读取csv (spark2.0以上)

val spark = org.apache.spark.sql.SparkSession.builder
        .master("local")
        .appName("Spark CSV Reader")
        .getOrCreate;

val df = spark.read
        .format("com.databricks.spark.csv")
        .option("header", "true") //reading the headers
        .option("mode", "DROPMALFORMED")
        .load("csv/file/path"); //.csv("csv/file/path")
df.show()