
spark sql
爆发的~小宇宙
github地址:https://github.com/ordinary-zhang?tab=repositories
展开
-
Spark SQL作用及其架构
1 概述对于Spark SQL的学习:本文首先会介绍Spark SQL的产生背景,知道了产生背景我们开始学习Spark SQL的作用和特点,最后介绍其原理。下一篇文章会介绍如何使用Spark SQL。 官网地址2 Spark SQL产生背景2.1 SQL的重要性很多传统的dba人员或者熟悉关系新数据库的人在遇到日益增长的数据量,关系型数据库已经存储不了那么多信息,那么如果...原创 2018-05-03 22:58:59 · 7004 阅读 · 0 评论 -
Spark SQL基本操作
1 概述本文介绍spark sql的几种执行方式:SQL,DataFramesAPI与Datasets API(但会使用同一个执行引擎),Spark2.0中引入了SparkSession的概念。该篇文章只是做一个简单的了解,让大家有一个感官性的认识。下一篇会对RDD、DataFrame、Dataset进行一个详细的介绍。spark sql是为了处理结构化数据的一个spark 模块。不同于s...原创 2018-05-04 10:55:00 · 2558 阅读 · 0 评论 -
Spark SQL 外部数据源(External DataSource)以及常用操作
1 概述Spark1.2中,Spark SQL开始正式支持外部数据源。Spark SQL开放了一系列接入外部数据源的接口,来让开发者可以实现。使得Spark SQL可以加载任何地方的数据,例如mysql,hive,hdfs,hbase等,而且支持很多种格式如json, parquet, avro, csv格式。我们可以开发出任意的外部数据源来连接到Spark SQL,然后我们就可以通过外部数...原创 2018-05-31 10:27:13 · 3044 阅读 · 0 评论 -
Kudu与Spark 集成
1.环境 <properties> <scala.version>2.11.8</scala.version> <spark.version>2.2.0</spark.version> <kudu.version>1.5.0</kudu.version> </properties...原创 2019-04-17 16:18:52 · 2547 阅读 · 0 评论