
Spark
A_ChunUnique
大数据爱好者
展开
-
基于CentOS6.5编译Spark2.2.0源码
一、创建hadoop用户及目录1 创建用户[root@hadoop000 ~]# useradd hadoop2 设置密码[root@hadoop000 ~]# passwd hadoop3 切换用户 hadoop[root@hadoop000 ~]# su - hadoop[hadoop@hadoop000 ~]$ pwd/home/hadoop4 创建目录[hadoop@hadoop原创 2017-09-06 12:16:36 · 663 阅读 · 1 评论 -
Streaming黑名单过滤(transform算子的使用)
原始数据:20180808,zs20180808,ls20180808,ww黑名单列表:zsls思路:1、原始日志可以通过Streaming直接读取成一个DStream2、名单通过RDD来模拟一份逻辑实现:1、将DStream转成(黑名单只有名字)(zs,(20180808,zs))(ls,(20180808,ls))(ww,( 20180808,ww))2、然后将...原创 2019-01-10 16:23:41 · 787 阅读 · 0 评论 -
UpdateStateByKey算子
具体用法参考官网UpdateStateByKey OperationupdateStateByKey操作允许您在使用新信息不断更新时保持任意状态。 要使用它,您必须执行两个步骤。定义状态 - 这个状态可以是任意的数据类型定义状态update函数 - 用这个函数指定如何使用先前状态和新输入流里的新值更新状态对于有状态操作,要不断的把当前和历史的时间切片的RDD累加计算,随着时间的流失,计算...原创 2019-01-10 16:06:25 · 792 阅读 · 0 评论 -
Spark读取mongoDB数据写入Hive普通表和分区表
版本: spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4一 原始数据及Hive表 MongoDB数据格式{ "_id" : ObjectId("5af65d86222b639e0c2212f3"), &amp原创 2018-06-03 23:18:15 · 1737 阅读 · 0 评论 -
Spark RDD、DataFrame和DataSet的区别
在spark中,RDD、DataFrame、Dataset是最常用的数据类型,今天谈谈他们的区别!一 、共性 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算。3、三者都会根据spark的内...原创 2018-05-18 21:41:02 · 757 阅读 · 0 评论 -
Spark History Server Web UI配置
1.进入spark目录和配置文件[root@hadoop01 ~]# cd /opt/app/spark/conf[root@hadoop01 conf]# cp spark-defaults.conf.template spark-defaults.conf2.创建spark-history的存储日志路径为hdfs上(当然也可以在linux文件系统上)[root@hadoo...原创 2018-03-12 19:20:40 · 1664 阅读 · 0 评论 -
Spark SQL架构
通过执行计划理解上图spark-sql (default)> explain extended > select > a.key*(4+5), > b.value > from > aa a join aa原创 2017-11-22 20:54:21 · 625 阅读 · 0 评论 -
Spark SQL 整合Hive的使用
官网地址 点击进入 一、使用Spark SQL访问Hive需要将$HIVE_HOME/conf下的hive-site.xml拷贝到$SPARK_HOME/conf下,如果集群没有安装hive那么就在$SPARK_HOME/conf 下创建一个hive-site.xml,再配置一下可以访问metadata即可二、启动spark访问hive 1、HDFS必须保证启动了 2、如果报错说找不到mysq原创 2017-11-22 20:44:48 · 1561 阅读 · 0 评论 -
Spark2启动报错
错误如下:[root@hadoop002 conf]# spark-shell --master local[2]Exception in thread "main" java.lang.NoClassDefFoundError: org/slf4j/Logger at java.lang.Class.getDeclaredMethods0(Native Method)原创 2017-11-16 19:27:07 · 2990 阅读 · 0 评论 -
CDH 自定义添加Spark2服务
官网参考Installing Cloudera Distribution of Apache Spark 2一 、下载SPARK2_ON_YARN-2.2.0.cloudera1.jarSPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-el6.parcelSPARK2-2.2.0.cloudera1-1.cdh5.12.0.p0.142354-el6.par原创 2017-11-16 18:49:17 · 7248 阅读 · 1 评论 -
Spark 用户访问量
需求求用户访问量的top5需求分析1、拿到用户 2、访问量求和 2、反转排序再反转一、读取文件val file=sc.textFile("/opt/data/page_views.dat")二、使用tab键分割并拿到第五个字段用户id,然后每个id赋1的操作val user=file.map(x =>(x.split("\t")(5),1))最终效果scala> user.collect.tak原创 2017-11-05 16:00:05 · 650 阅读 · 0 评论 -
SparkSQL groupBy的使用
数据格式(消费者ID 消费时间 消费金额)1 12:01 1001 12:02 2001 12:50 1002 12:50 1003 13:01 200需求:统计每个小时,每个用户的消费总额思路步骤:1、id加上时间的小时部分(前两位)作为key2、使用sparkSQl里面的 groupby.agg()方法 groupby(“id”,“time”).agg(sum(“cous...原创 2019-01-08 11:12:52 · 9380 阅读 · 0 评论