Spark SQL与DataFrame:数据处理全解析
1. 内置数据源的数据读取与写入
1.1 CSV选项
在使用 DataFrameReader 和 DataFrameWriter 处理CSV文件时,有多个重要选项,如下表所示:
| 属性名 | 值 | 含义 | 范围 |
| — | — | — | — |
| compression | none, bzip2, deflate, gzip, lz4, or snappy | 写入时使用的压缩编解码器 | 写入 |
| dateFormat | yyyy-MM-dd or DateTime Formatter | 使用此格式或Java的DateTimeFormatter中的任何格式 | 读取/写入 |
| multiLine | true, false | 使用多行模式,默认为false(单行模式) | 读取 |
| inferSchema | true, false | 如果为true,Spark将确定列数据类型,默认为false | 读取 |
| sep | 任何字符 | 使用此字符分隔行中的列值,默认分隔符为逗号(,) | 读取/写入 |
| escape | 任何字符 | 使用此字符转义引号,默认为 \ | 读取/写入 |
| header | true, false | 指示第一行是否为表示每个列名的标题,默认为false | 读取/写入 |
1.2 Avro格式
Avro格式自Spark 2.4起作为内置数据
超级会员免费看
订阅专栏 解锁全文
1086

被折叠的 条评论
为什么被折叠?



