
spark
bokzmm
这个作者很懒,什么都没留下…
展开
-
Spark SQL 创建局部视图和全局视图,以及找不到全局视图的问题解决
Spark SQL 中临时视图有两种,一种局部临时视图,只在当前SparkSession会话中有效;不能跨SparkSession访问。另一种是全局临时视图,作用于某个Spark应用程序的所有SparkSession会话。即全局临时视图是跨会话的。它的生命周期和Spark应用程序的生命周期相同,当应用程序终止时,它将自动删除。 默认保存在系统保留的global_temp数据库下。所以查询全局临时视图时需要在视图名前面加上数据库名。即global_temp.全局视图名。例如:select * fr.原创 2021-03-15 16:37:32 · 1731 阅读 · 0 评论 -
spark graphx:connectedComponents算子案例演示
一、Spark graphx中 connectedComponents算子用法:返回一个图中所有连通子图的顶点集合,其中每个元素是一个(key,value)形式的二元组,key是各连通子图的顶点,value是该连通子图中数值最小的顶点。二、代码演示:object GraphDemo { def main(args: Array[String]): Unit = { val conf = new SparkConf().setMaster("local[*]").setAppName(原创 2021-03-07 16:09:11 · 665 阅读 · 0 评论 -
Spark2.x整合Hive
一、开发环境spark:2.1.1hive:1.2.2hadoop:2.7.6开发工具:Idea二、在Idea中创建maven项目,pom文件引入以下依赖。<dependencies> <dependency> <groupId>junit</groupId> <artifactId>...原创 2019-02-21 11:41:25 · 1641 阅读 · 0 评论 -
Spark集群搭建
一、环境准备(1)集群:hadoop01,hadoop02,hadoop03(2)jdk1.8、spark1.6二、集群搭建(1)解压安装包到linux下的:/usr/localtar -zxvf /home/spark-1.6.1-bin-hadoop2.6.tgz -C /usr/local(2)进入解压目录的conf目录,修改spark-env.sh#指定jdk目录export...原创 2018-03-22 00:45:27 · 571 阅读 · 0 评论 -
spark两种自定义排序方式
一、目标对象添加隐式转换函数的方式实现自定义排序object MySort{ //为student类添加隐式转换函数 implicit val stuOrdering = new Ordering[student]{ override def compare(x: student, y: student) = { //自定义排序格式为:默认按年龄升序排序,当年龄相同时,...原创 2018-04-07 16:56:53 · 1508 阅读 · 0 评论 -
Spark Sql之两种方式构建DataFrame
一、通过定义类的方式指定schema来构建DataFrameobject GenerateDFByClass{ def main(args: Array[String]): Unit = { //1.创建配置对象 val conf = new SparkConf() .setAppName("generateDF") //指定应用名 .setMa...原创 2018-04-07 15:44:20 · 572 阅读 · 0 评论 -
SparkSQL中的UDF
一、UDF(User Defined Function):spark SQL中用户自定义函数,用法和spark SQL中的内置函数类似;是saprk SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。二、UDF使用分为两步:(1)自定义UDF类,根据业务需要,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字,比如UDF1、UDF2;表示输入参数的个数,1表示有一个入参...原创 2018-03-22 22:28:38 · 2327 阅读 · 1 评论 -
Spark开窗函数之ROW_NUMBER()
一、row_number函数的用法: (1)Spark 1.5.x版本以后,在Spark SQL和DataFrame中引入了开窗函数,其中比较常用的开窗函数就是row_number 该函数的作用是根据表中字段进行分组,然后根据表中的字段排序;其实就是根据其排序顺序,给组中的每条记录添 加一个序号;且每组的序号都是从1开始,可利用它的这个特性进行分组取top-n...原创 2018-03-22 20:41:09 · 20861 阅读 · 0 评论 -
NoSql数据库之redis数据库简介及安装
一、Redis数据库简介: Redis是用C语言开发的一个开源的高性能键值对(key-value)数据库。它通过提供多种键值数据类型来适应不同场景下的存储需求,目前为止Redis支持的键值数据类型如下: 1、字符串类型(String) 2、散列类型(hash) 3、列表类型(List) 4、集合类型(Set) 5、...原创 2018-03-09 19:37:04 · 257 阅读 · 0 评论 -
spark集群的启动流程
总体来说spark集群的启动流程可以分为五步,下面结合下图来具体分析一下spark集群在启动的流程。(1)、创建Master对象,启动了一条Master进程。然后,执行preStart生命周期方法,开启一个定时器定期检测超时的worker节点;如果发现超时的worker节点,则将其移除。(2)、加载slaves文件,启动worker节点。(3)、worker节点启动后,开始向master注册...原创 2018-03-07 21:38:11 · 1647 阅读 · 0 评论 -
spark集群的任务提交执行流程
本文转自:https://www.linuxidc.com/Linux/2018-02/150886.htm一、Spark on Standalone1.spark集群启动后,Worker向Master注册信息2.spark-submit命令提交程序后,driver和application也会向Master注册信息3.创建SparkContext对象:主要的对象包含DAGScheduler和Tas...转载 2018-03-07 20:41:30 · 18036 阅读 · 0 评论