
SparkSql
SparkSql
小刘同学-很乖
这个作者很懒,什么都没留下…
展开
-
SparkSQL实战案例
数据说明数据集是货品交易数据集每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价加载数据tbStock:scala> case class tbStock(ordernumber:String,locationid:String,dateid:String) extends Serializabledefined class tbStockscala&...原创 2020-08-24 08:15:40 · 2137 阅读 · 3 评论 -
SparkSQL数据源之Hive数据库
Apache Hive是Hadoop上的SQL引擎,Spark SQL编译时可以包含Hive支持,也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、UDF(用户自定义函数)以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是,如果要在Spark SQL中包含Hive的库,并不需要事先安装Hive。一般来说,最好还是在编译Spark SQL时引入Hive支持,...原创 2020-08-21 08:08:07 · 307 阅读 · 0 评论 -
SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
手动指定选项Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。Spark SQL的默认数据源为Parquet格式。数据源为Parquet文件时,Spark SQL可以方便的执行所有的操作。修改配置项spark.sql.sourc...原创 2020-08-20 08:11:22 · 565 阅读 · 1 评论 -
SparkSQL编程之用户自定义函数
IDEA创建SparkSQL程序IDEA中程序的打包和运行方式都和SparkCore类似,Maven依赖中需要添加新的依赖项<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.11</artifactId> <v...原创 2020-08-19 08:01:32 · 417 阅读 · 0 评论 -
SparkSQL编程之RDD、DataFrame、DataSet
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的...原创 2020-08-18 08:01:23 · 227 阅读 · 0 评论 -
SparkSQL编程之DataSet以及DataFrame与DataSet的互操作
DataSetDataset是具有强类型的数据集合,需要提供对应的类型信息。DataSet创建创建一个样例类scala> case class Person(name: String, age: Long)defined class Person创建DataSetscala> val caseClassDS = Seq(Person("Andy", 32)).t...原创 2020-08-17 08:14:10 · 247 阅读 · 0 评论 -
SparkSQL编程之DataFrame详解
SparkSession新的起始点在老的版本中,SparkSQL提供两种SQL查询起始点:一个叫SQLContext,用于Spark自己提供的SQL查询;一个叫HiveContext,用于连接Hive的查询。SparkSession是Spark最新的SQL查询起始点,实质上是SQLContext和HiveContext的组合,所以在SQLContext和HiveContext上可用的API在S...原创 2020-08-14 08:19:57 · 486 阅读 · 0 评论 -
SparkSql详细概述
什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而...原创 2020-08-13 08:13:50 · 434 阅读 · 0 评论