spark
文章平均质量分 93
李_少
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark3.1.2 on TDH622
一、在linux搭建spark环境1.下载sparkspark官方下载地址:http://spark.apache.org/downloads.html 。这里选择spark-3.1.2-bin-hadoop2.7版本。2.上传spark,下载TDH客户端上传 spark-3.1.2-bin-hadoop2.7.tgz 至linux的/opt目录下在manager下载TDH客户端,上传至/opt目录下解压spark。tar -zxvf spark-3.1.2-bin-hadoop2.7.tg原创 2021-11-09 21:24:44 · 2610 阅读 · 0 评论 -
SparkStreaming Bulkload入Hyperbase--应用与原理
SparkStreaming Bulkload入Hyperbase–应用与原理一、环境准备见《Spark3.1.2 on TDH622》二、补充jar包三、关键代码说明接入kafka数据JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream( ssc,原创 2021-11-09 19:04:24 · 2228 阅读 · 2 评论 -
spark笔记(二)–sparkstreaming使用updateStateByKey和mapWithState算子实现wordcount(JAVA版)
spark笔记(二)–sparkstreaming使用updateStateByKey和mapWithState算子实现wordcount(JAVA版)直接上代码:updateStateByKeyimport org.apache.log4j.Level;import org.apache.log4j.Logger;import org.apache.spark.SparkConf;import org.apache.spark.api.java.Optional;import org.apa原创 2020-08-26 21:18:55 · 324 阅读 · 1 评论 -
sparkstreaming整合kafka的两种方式
sparkstreaming整合kafka的两种方式sparkstreaming整合旧版本的kafka有两种方式,一般称为Receiver方式和Direct方式。Receiver方式Receiver-based方式是基于kafka high level api来实现的。在executor节点会单独启动一个receiver线程,去持续消费kafka数据,消费到的数据放在executor内存中,当执行batch计算时,executor会去计算这些数据。这种方式有很多缺点:由于宕机或者程序失败等其他因原创 2020-08-26 19:39:46 · 386 阅读 · 0 评论 -
spark笔记(一)--常用spark算子
1.mapPartitions 映射分区。对rdd中的每个分区进行映射。2.union rdd1.union(rdd2)。该结果的分区数是rdd1和rdd2的分区数之和。3.intersection 计算两个rdd的交集,需要shuffle过程。交集后的rdd分区数是参与计算的两个分区数的最大值。4.distinct 去重。内部通过reduc...原创 2018-03-03 21:56:07 · 1864 阅读 · 0 评论
分享