Spark内置支持多种文件格式和数据库。包括JDBC、Hive、Json、ORC、Parquet、MySQL、PostgreSQL。
1、内置数据源
Spark支持的数据格式每个都有各自的优点,对于何时使用何种格式需要结合具体的场景,内置数据源格式为Json、ORC、Parquet
(1)Json
Json格式通常用于web开发,非常常见,简单易用,但是它不是一种有效的永久数据存储格式。
(2)ORC
优化的行列文件格式(ORC)旨在提供一种更有效的方式来存储Hive数据,以前是用于在Hadoop中存储数据的标准格式
(3)Parquet
Parquet在Hadoop生态中更受欢迎,因为它被设计为独立于任何特定的框架,并且没有不必要的依赖。
(4)Postgresql
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession
object Testsql {
def main(args: Array[String]): Unit = {
Logger.getLogger("org.apache.hadoop").setLevel(Level.WARN)
Logger.getLogger("org.apache.spark").setLevel(Level.INFO)
Logger.getLogger("org.spark_project.jetty").setLevel(Level.WARN)
val spark = SparkSession.builder(