
SparkSql
Apache Spark™ is a unified analytics engine for large-scale data processing.
weixin_43563705
将自己的所学到的知识分析给大家
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
最全最细节的Spark SQL整合Hive
Spark SQL on HIVE步骤步骤1.拷贝Hive conf文件夹中的 hive-site.xml 文件夹到 spark的conf下(配置需要与下面的文件保持一致!)hive-site.xml<?xml-stylesheet type="text/xsl" href="configuration.xsl"?><configuration> <property> <name>javax.jdo.o原创 2020-11-24 15:12:13 · 1256 阅读 · 0 评论 -
SparkSQL插入数据到MongoDB
首先导入POM文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.o原创 2020-06-11 11:25:52 · 3420 阅读 · 4 评论 -
Spark SQL:从入门到精通(六)[ Spark-On-Hive]
概述官网http://spark.apache.org/docs/latest/sql-data-sources-hive-tables.htmlConfiguration of Hive is done by placing your hive-site.xml, core-site.xml (for security configuration), and hdfs-site.xml...原创 2020-04-23 10:29:31 · 3836 阅读 · 3 评论 -
Spark SQL:从入门到精通(五)[开窗函数]
概述https://www.cnblogs.com/qiuting/p/7880500.html介绍:开窗函数的引入是为了既显示聚集前的数据,又显示聚集后的数据。即在每一行的最后一列添加聚合函数的结果。开窗用于为行定义一个窗口(这里的窗口是指运算将要操作的行的集合),它对一组值进行操作,不需要使用 GROUP BY 子句对数据进行分组,能够在同一行中同时返回基础行的列和聚合列。聚合函数...原创 2020-04-23 10:20:04 · 5592 阅读 · 2 评论 -
Spark SQL:从入门到精通(四)[ 自定义函数]UDF_UDAF
自定义函数分类类似于hive当中的自定义函数, spark同样可以使用自定义函数来实现新的功能。spark中的自定义函数有如下3类:UDF(User-Defined-Function)输入一行,输出一行UDAF(User-Defined Aggregation Funcation)输入多行,输出一行UDTF(User-Defined Table-Generating Functio...原创 2020-04-23 10:10:26 · 3585 阅读 · 2 评论 -
Spark SQL:从入门到精通(三)[多数据源交互]
Spark SQL多数据源交互Spark SQL可以与多种数据源交互,如普通文本、json、parquet、csv、MySQL等1.写入不同数据源2.读取不同数据源写数据package cn.itcast.sqlimport java.util.Propertiesimport org.apache.spark.SparkContextimport org.apache.spa...原创 2020-04-23 10:06:09 · 3754 阅读 · 1 评论 -
Spark SQL:从入门到精通(二)[IDEA开发Spark SQL]
创建DataFrame/DataSetSpark会根据文件信息尝试着去推断DataFrame/DataSet的Schema,当然我们也可以手动指定,手动指定的方式有以下几种:第1种:指定列名添加Schema第2种:通过StructType指定Schema第3种:编写样例类,利用反射机制推断Schema指定列名添加Schemapackage cn.itcast.sqlimport o...原创 2020-04-23 10:03:19 · 4165 阅读 · 1 评论 -
Spark SQL:从入门到精通(一)[SparkSQL初体验]
入口-SparkSession在spark2.0版本之前SQLContext是创建DataFrame和执行SQL的入口HiveContext通过hive sql语句操作hive表数据,兼容hive操作,hiveContext继承自SQLContext。在spark2.0之后SparkSession 封装了SqlContext及HiveContext所有功能。通过SparkSession...原创 2020-04-23 09:57:55 · 5678 阅读 · 2 评论 -
SparkSql:数据抽象(DataFrame与DataSet详解)
DataFrame什么是DataFrameDataFrame是一种以RDD为基础的带有Schema元信息的分布式数据集,类似于传统数据库的二维表格 。DataSet什么是DataSetDataSet是保存了更多的描述信息,类型信息的分布式数据集。与RDD相比,保存了更多的描述信息,概念上等同于关系型数据库中的二维表。与DataFrame相比,保存了类型信息,是强类型的,提供了...原创 2020-04-23 09:39:49 · 4251 阅读 · 2 评论 -
Spark SQL:基本介绍(特点)
Spark SQL官方介绍官网:http://spark.apache.org/sql/Spark SQL是Spark用来处理结构化数据的一个模块。Spark SQL还提供了多种使用方式,包括DataFrames API和Datasets API但无论是哪种API或者是编程语言,它们都是基于同样的执行引擎,因此你可以在不同的API之间随意切换,它们各有各的特点。Spark SQL 的特点...原创 2020-04-23 09:30:33 · 6220 阅读 · 2 评论