Spark读取CSV文件详解
如题,有一个spark读取csv的需求,这会涉及到很多参数。通过对源码(spark version 2.4.5(DataFrameReader.scala:535 line))的阅读,现在我总结在这里:
spark读取csv的代码如下
val dataFrame: DataFrame = spark.read.format("csv")
.option("header", "true")
.option("encoding", "gbk2312")
.load(path)
这个option里面的参数,进行介绍:
spark读取csv的时候,如果inferSchema开启,spark只会输入一行数据,推测它的表结构类型,避免遍历一次所有的数,禁用inferSchema参数的时候,或者直接指定schema。
| 参数 | 解释 |
|---|---|
sep |
默认是, 指定单个字符分割字段和值 |
encoding |
默认是uft-8通过给定的编码类型进行解码 |
quote |
默认是“,其中分隔符可以是值的一部 |

本文详细介绍了Spark如何读取CSV文件,包括关键参数的使用。通过启用特定选项,可以只用一行数据来推测表结构,从而提高效率。在禁用相关参数或手动指定类型时,这一功能尤为有用。
最低0.47元/天 解锁文章
2273





