
spark
cyclebozhou
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark中的数据倾斜的现象
spark中的数据倾斜的现象、原因、后果 (1)、数据倾斜的现象 多数task执行速度较快,少数task执行时间非常长,或者等待很长时间后提示你内存不足,执行失败。 (2)、数据倾斜的原因 数据问题 1、key本身分布不均衡(包括大量的key为空) 2、key的设置不合理 spark使用问题 1、shuffle时的并发度不够 2、计算方式有误 (3)、数据倾斜的后果 1、sp...原创 2018-03-26 10:22:04 · 1006 阅读 · 0 评论 -
Hbase寻址(1)
现在假设我们要从Table2里面查询一条RowKey是RK10000的数据。那么我们应该遵循以下步骤: 1. 从.META.表里面查询哪个Region包含这条数据。 2. 获取管理这个Region的RegionServer地址。 3. 连接这个RegionServer, 查到这条数据。系统如何找到某个row key (或者某个 row key range)所在的region bigta...原创 2018-03-14 09:05:16 · 1056 阅读 · 0 评论 -
spark&yarn两种运行模式(2)
两种模式的原理:cluster模式: Spark Driver首先作为一个ApplicationMaster在YARN集群中启动,客户端提交给ResourceManager的每一个job都会在集群的NodeManager节点上分配一个唯一的ApplicationMaster,由该ApplicationMaster管理全生命周期的应用。具体过程:由client向ResourceMa...原创 2018-03-13 08:55:39 · 856 阅读 · 0 评论 -
spark&yarn两种运行模式(1)
spark在yarn上的运行模式(cluster模式和client模式)1.cluster模式官网案例计算PIspark-submit --class org.apache.spark.examples.SparkPi \--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-memory...原创 2018-03-13 08:52:28 · 2429 阅读 · 0 评论 -
spark on hive
spark on hive1、spark on hive介绍(1)就是通过sparksql,加载hive的配置文件,获取到hive的元数据信息(2)spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据(3)接下来就可以通过spark sql来操作hive表中的数据2、spark on hive 配置(1)将hive安装目录下conf/hive-...原创 2018-03-11 21:13:35 · 1351 阅读 · 0 评论 -
Hive on Spark
Hive on Spark用的是Spark执行引擎,而不是MapReduce 处理hive元数据的不再是map和reduce工程而是通过spark的rdd就可以充分利用Spark的快速执行能力来缩短HiveQL的响应时间 配置Hive on Spark 将编译后的spark下的lib下的 spark-assembly-*.jar 拷贝到hive的lib下 * 在hive-si...原创 2018-03-11 21:10:08 · 1061 阅读 · 0 评论 -
spark和flume整合
软件版本:spark2.02 开发环境:idea,maven maven依赖: <properties> <scala.version>2.11.8</scala.version> <hadoop.version>2.7.4</hadoop.version> <spark....原创 2018-03-11 20:29:23 · 1694 阅读 · 0 评论 -
spark之DataFrame、DataSet、RDD的区别
RDD(弹性分布式数据集)RDD是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合,RDD是Spark Core的底层核心,Spark则是这个抽象方法的实现DataFrame 上图直观地体现了DataFrame和RDD的区别。 左侧的RDD[Person]虽然以Person为类型参数,但Spark框架本身不了解 Person类的内部结构。 而右侧...原创 2018-03-11 16:32:46 · 2294 阅读 · 1 评论 -
spark之RDD(2)
RDD的依赖关系窄依赖 父RDD中每一个partition最多只被子RDD的一个partition所使用总结:窄依赖我们形象的比喻为独生子女宽依赖 子RDD的多个partition会依赖于父RDD同一个partition总结:宽依赖我们形象的比喻为超生Lineage(血统)记录下RDD的元数据信息和转换行为,如果当前一个RDD的某些分区数据丢失后,可以根据血统,重新计算...原创 2018-03-10 20:18:42 · 833 阅读 · 1 评论 -
spark之RDD(1)
Rdd概述:rdd是spark中弹性分布式数据集,不可变可分区其中元素可以并行计算的集合 特性: 1. A list of partitions rdd最小划分在每个分区中一般hdfs中未指定以block数量作为分区数量 2. A function for computing each split Spark中RDD的计算是以分区为单位的,每个RDD都会实现compute函...原创 2018-03-10 20:17:15 · 973 阅读 · 2 评论 -
SparkStreaming开窗函数reduceByKeyAndWindow原理
StreamingContext开窗函数原创 2018-03-14 19:58:51 · 1795 阅读 · 0 评论 -
Spark Streaming整合kafka(1)
spark整合kafka原创 2018-03-14 19:36:55 · 822 阅读 · 0 评论 -
sacla之akka
概述: akka是rpc轻量级框架 ,Scala 在 2.11.x 版本中将 Akka 加入其中,作为其默认的 Actor,而老版本使用的 Actor 已经废弃组成: master worker 两者之间使用akka中的rpc通信 通信的业务逻辑: 1. 启动master和worker 2. wo...原创 2018-03-07 20:59:41 · 806 阅读 · 1 评论 -
Spark Streaming整合kafka(2)
KafkaUtils.createDstream方式(基于kafka高级Api—–偏移量由zk保存) import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.s...原创 2018-03-29 09:19:45 · 1559 阅读 · 0 评论