Spark External Data Source API

Spark 外部数据源 API操作

产生背景

  •            Every Spark application starts with loading data and ends with saving data.
           每个Spark应用程序都开始于加载数据,结束于保存数据。
对用户来说:
方便快速从不同的数据源(json、parquet、rdbms),经过混合处理(json join parquet),
再将处理结果以特定的格式(json、parquet)写回到指定的系统(HDFS、S3)上
  • Loading and saving Data is not easy
加载数据和保存数据不是容易的
  • Parse raw data:text/json/parquet
解析数据源也不是容易的
  • Convert data format transformation
转换数据格式转换
  • Datasets stored in various Formats/Systems

概述

  • An extension way to integrate a various of extenal data sources into Spark SQL                                                                                                                                        将各种扩展数据源集成到Spark SQL中的一种扩展方法
  • Can read and write DtaFrames using a variety of formats and storage systems                                                                                                                                          可以使用多种格式和存储系统读取和写入dtaframe
  • Data Sources API can automatically prune columns and push filters to the source:Parquet/JDBC                                                                                                              数据源API可以自动删除列,并将过滤器下压到数据源:parquet/jdbc
  • New API introduced in1.2    在Spark1.2版本才有的

目标

  • Developer(开发者):build libraries for various data sources    为各种数据源构建库
  • User(使用者):easy loading/saving DataFrames
读:spark.read.format(format").load(path)
    format
             build-in(内置): json parquet jdbc  csv(2.x以后才内置)
              packages: 外部的 并不是spark内置   https://spark-packages.org/
写:people.write.format("parquet").save("path")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值