从csv文件创建dataFrame

最新推荐文章于 2024-08-07 19:38:10 发布

原创最新推荐文章于 2024-08-07 19:38:10 发布 · 2.1k 阅读

2 ·

CC 4.0 BY-SA版权

大数据学习专栏收录该内容

3 篇文章

订阅专栏

本文介绍如何使用Apache Spark读取CSV文件并创建DataFrame。通过具体代码示例展示了设置Spark配置、创建SparkSession、指定读取选项及加载数据的过程。

读取CSV文件创建dataFrame的写法：

val df1 = spark.read
      .format("csv")
      .option("header","true")
      .option("inferSchema","true")
      .load("src/test/resource/1.csv")

完整写法：

import org.apache.spark.{SparkConf,SparkContext}
import org.apache.spark.sql.SparkSession

object readDataFrame {
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local").setAppName("readDataFrame")
    val sc = new SparkContext(conf)

    val spark = SparkSession.builder().appName("readDF").getOrCreate()

    val df = spark.read.format("csv").option("header",true).load("src/test/resource/1.csv")
    df.printSchema()
    df.show()

  }
}