
Saprk
文章平均质量分 79
重启试试..
喜欢钻研大数据、python、机器学习、人工智能...
展开
-
Saprk的shuffer详解
<Spark 的ShuffleManager>Spark 1.6 和 1.6之前的 有两种 ShuffleManager(1) hashShuffleManager 最原始的 Spark2.3 之前 都有 2.3之后就留下 SortBuffer(2) sortShuffleManager 1.2引入的 2.3之后只留下这一个 Buffer了《hashShuff...原创 2020-09-29 10:39:23 · 126 阅读 · 0 评论 -
kafka与SparkStreaming整合
1、Receiver模式接收器模式,必须有一个Task接收数据接收器模式的话很容易造成丢失数据。如果接收数据的期间,Driver挂掉,那么在Excuter内存中的数据多多少少会丢失一些,WAL机制优化机制,可以将数据存储在Hdfs一份,但一定要设置Checkpoint 持久化 才可以放磁盘 不tm开启放个屁。1.6之后这种模式就被移除了Direct模式处理数据就去拿,而不是...原创 2020-03-03 21:00:42 · 263 阅读 · 0 评论 -
kafka常用的命令
查看有那些topic进入到 bin目录1.查看topic./kafka-topics.sh --zookeeper node3:2181,node4:2181,node5:2181 --list2.创建topic./kafka topics.sh --topic new_top --partitions 3 zookeeper node3:2181,node4:2181,nod...原创 2020-02-26 16:22:24 · 386 阅读 · 0 评论 -
Spark创建DataFream的两种方式
方式 1:动态创建DataFream准备数据用于测试 李三 男 15李四 女 16王五 人妖 17赵六 神 18代码 ********************第一步: 先创建所需对象 final SparkConf conf = new SparkConf(); conf.setMaster("local"); conf.setAppName("tes...原创 2020-02-13 17:12:20 · 434 阅读 · 0 评论 -
Java代码中使用不同的SparkContext创建RDD的方式
方式 1:java中 可以new JavaSparkContext(conf)这样创建 sparkContext对象方式 2:也可以用 SparkSession.builder().config(conf).getOrCreate().sparkContext()来创建对象方式1:创建rdd方式 parallelize(集合,int) makeRDD(集合,int) 来创建方式2:但...原创 2020-02-13 15:51:14 · 1275 阅读 · 0 评论 -
Spark之广播变量
广播变量 <广播变量>1.客户端的 driver 中有一个 list 如果 Executor Task要用到这个 list这时候 在driver 创建一个 list广播变量 这样会在 Executor 启动一个 blockManager 来管理 driver广播的 变量 (在driver一广播变量 Executor 的就会有这么一个 广播变量了 ) 下次每个 Task 回...原创 2020-01-07 16:35:10 · 286 阅读 · 0 评论