
Spark
oJueQiang123456
这个作者很懒,什么都没留下…
展开
-
Spark-SparkStreaming+Kafka+Redis 手动管理offsets
SparkStreamingTestimport org.apache.kafka.common.TopicPartitionimport org.apache.spark.sql.SparkSessionimport org.apache.spark.streaming.{Durations, StreamingContext}import scala.collection.mutableimport com.jzh.util.RedisUtilimport org.apache.kafk原创 2020-08-24 00:30:24 · 332 阅读 · 0 评论 -
Spark On HBase
POM<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</maven.compiler.target> <spark.原创 2020-08-23 16:31:22 · 309 阅读 · 0 评论 -
Spark 批量写入 HBase
import com.alibaba.fastjson.JSONObjectimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.hbase.client.{Put, Result}import org.apache.hadoop.hbase.io.ImmutableBytesWritableimport org.apache.hadoop.hbase.util.Bytesimport org.apache.had.原创 2020-08-23 11:32:17 · 819 阅读 · 0 评论 -
Spark-SparkStreaming+Kafka+zookeeper 手动管理offsets
一、概述SparkStreaming以Kafka作为数据源,手动管理offsets保存在zookeeper中。 SparkStreamingOnKafka(入口)。 KafkaZookeeperUtils(获取数据和更新offsets工具类)。二、代码1、SparkStreamingOnKafkapackage com.cfl.spark.streaming;import ...原创 2019-04-13 20:29:56 · 524 阅读 · 0 评论 -
Spark-Yarn两种提交方式(client、cluster)
前提:安装并启动hdfs和yarn。 修改conf/spark-env.sh,添加:export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #hadoop配置文件如果需要连接hive,需先启动hive服务(node1服务器),并且在conf目录下创建hive-site.xml<configuration> <prop...原创 2019-03-21 08:52:47 · 2217 阅读 · 0 评论 -
Spark on Hive
一概述node1(主节点:NameNode、ResourceManager、Master、RunJar) node2(从节点:DataNode、SecondaryNameNode、NodeManager、Worker) node3(从节点:DataNode、NodeManager、Worker)二、spark-shell模式1、在spark的conf文件下创建hive-site.xm...原创 2019-03-16 09:05:42 · 314 阅读 · 0 评论 -
Spark-资源调度、任务调度、粗粒度资源申请
一、概述standalone-client模式启动:二、执行流程: (x)指的是上图的第x步1、启动集群Worker向Master汇报资源(1)。 Master掌握集群资源(2)。2、启动application的时候创建Driver对象。3、new SparkContext()(3):创建DAGcheduler、TaskScheduler对象。TaskSche...原创 2019-02-26 23:38:33 · 447 阅读 · 0 评论 -
Spark-SparkStreaming
一、概述SparkStreaming是微批处理数据,7*24小时不间断运行。 处理数据时,首先启动一个job1,这个job1使用一个task来一直接收数据。task将一段时间内接收到的数据封装到一个batch中。 batch没有分布式计算特性,被封装到一个RDD中,这个RDD又被封装到一个DStream中。 生成DStream后,SparkStreaming再启动一个job2处理这个...原创 2019-03-02 00:05:29 · 185 阅读 · 0 评论 -
Spark-RDD宽窄依赖、pipeline计算模式、Stage
一、RDD宽窄依赖以WordCount为例:窄依赖:父RDD与子RDD partition之间的关系是一对一(父partition的数据只到一个子partition),比如:rdd1->rdd2->rdd3。 父RDD与子RDD partition之间的关系是多对一。宽依赖:父RDD与子RDD partition之间的关系是一对多(父partition的数据只到...原创 2019-02-26 12:02:24 · 596 阅读 · 0 评论 -
Spark-Standalone两种提交方式(client、cluster)
一、概况spark-submit(提交任务命令) --deploy-mode(提交任务模式) --class(执行文件的包名+类名) ../lib/spark-examples-1.6.0-hadoop2.6.0.jar(打包好的执行文件)二、client模式(--deploy-mode client)./spark-submit --master spark://172.16....原创 2019-02-24 22:47:47 · 585 阅读 · 0 评论 -
Spark-集群搭建
一、三台服务器172.16.233.137 (主节点,打开8888和7077端口) 172.16.233.138 172.16.233.139二、搭建(三台机器配置一样):已spark-1.6.0-bin-hadoop2.6为例 上传spark-1.6.0-bin-hadoop2.6到/data/local/,并解压。[root@bogon local]# lsjdk1.8.0...原创 2019-02-24 11:35:14 · 384 阅读 · 0 评论 -
Spark-算子
一、算子分类Transformations延迟执行算子:针对RDD的操作。 Action触发执行算子,触发transformations执行。 持久化算子:Cache、Persist、Checkpoint。 二、Action算子执行过程执行Action触发执行算子的时候,会一直往上找,直到找到第一个rdd,然后读磁盘,进行运算得到结果。三、持久化 分类:Cache、Persis...原创 2019-02-23 19:09:23 · 171 阅读 · 0 评论 -
Spark-初识
一、spark的core:spark中一个core同时只能同时执行一个任务。 计算机的1核1线程(并行一个任务)可以给spark提供1个core,1核2线程(并行两个任务)可以给spark提供2个core。二、RDD(弹性分布式数据库、RDD中是不存数据的,partition中也不存数据)一个RDD包含一个或多个partition,一个partition同时只能被一个任务处理。 W...原创 2019-02-23 18:39:38 · 211 阅读 · 0 评论