Spark SQL 数据操作与优化全解析
1. 连接 Thrift 服务器进行 SQL 查询
连接到 Thrift 服务器后,可在 SQL 选项卡中输入 SQL 查询。这是一种通过 Spark 将常规可视化和分析工具连接到分布式数据的便捷方式。
2. 保存和加载 DataFrame 数据
2.1 内置数据源
Spark 内置支持多种文件格式和数据库,常见的内置数据格式有 JSON、ORC 和 Parquet,它们各有优缺点,具体如下:
| 数据格式 | 优点 | 缺点 | 使用场景 |
| ---- | ---- | ---- | ---- |
| JSON | 常用于 Web 开发,是 XML 的轻量级替代方案;Spark 可自动推断 JSON 模式;简单易用,人类可读 | 不是高效的永久数据存储格式 | 与外部系统交换数据 |
| ORC | 为更高效存储 Hive 数据而设计;列存储格式,数据查询性能好;使用类型特定的序列化器和压缩 | - | 存储 Hive 数据 |
| Parquet | 独立于特定框架,无不必要依赖;列存储格式,支持多种压缩库;对嵌套复杂数据结构处理更好;默认数据源 | - | 大多数 Spark 数据存储场景 |
2.2 保存数据
DataFrame 的数据通过 DataFrameWriter 对象保存,该对象可通过 DataFrame 的 write 字段获取。保存数据的方法有 saveAsTable、save 和 insertInto,同时可以使用配置函数对写入操作进行配置。
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



