阿华田512
小红书 搜索阿华田512 即可获取所有专栏博客内容
展开
-
spark将数据写入ES(ElasticSearch)终极总结
简介spark接入ES可以使用多种方式,常见类型如下。将Map对象写入ElasticSearch 将case class 类对象写入ElasticSearch 将Json的字符串写入ElasticSearch本文主要介绍将case class 类对象写入ElasticSearch:也就是获取数据然后使用case class封装数据,然后在case class中选取一个字段当做 id,...原创 2019-01-09 13:11:47 · 31633 阅读 · 19 评论 -
hive on spark 终极总结
HiveOnSpark简介 Hive On Spark (跟hive没太大的关系,就是使用了hive的标准(HQL, 元数据库、UDF、序列化、反序列化机制))Hive原来的计算模型是MR,有点慢(将中间结果写入到HDFS中)Hive On Spark 使用RDD(DataFrame),然后运行在spark 集群上,hiveon spark 使用的仅仅是hive的标...原创 2020-03-12 10:26:24 · 1499 阅读 · 1 评论 -
spark监控
简介 spark提供了一系列整个任务生命周期中各个阶段变化的事件监听机制 通过这一机制可以在任务的各个阶段做一些自定义的各种动作, SparkListener与StreamingListener(StreamingListener是对SparkStream进行监控)便是这些阶段的事件监听接口类 通过实现这个类中的各种方法便可实现自定义的事件处理动作。SparkList...原创 2018-12-19 20:17:34 · 659 阅读 · 0 评论 -
Spark Streaming工作原理分析与使用
Spark Streaming入门1.概述Spark Streaming 是 Spark Core API 的扩展, 它支持弹性的, 高吞吐的, 容错的实时数据流的处理。spark streaming提供是一种分布式计算能力。数据来源数据可以通过多种数据源获取, 例如 Kafka, Flume以及 TCP sockets, 也可以通过例如 map, reduce, join,...原创 2018-06-29 21:04:07 · 943 阅读 · 0 评论 -
Spark HA集群模式的搭建和运行原理
HA出现的原因:Master-Slave模型很容易出现单节点故障的问题。所以为了应用这个问题,解决办法是通过Zookeeper来解决,在实际开发的时候一般都是三台,一个active,两个standby,当一个active挂掉后,Zookeeper会根据自己的选举机制,从standby的Master选举出来一个作为leader。这个leader从standby模式变成active模式的话,做的最...原创 2018-06-11 19:57:10 · 1461 阅读 · 0 评论 -
Spark的安装与使用
一 spark简介Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。二架构及生态介绍:通常当需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存,而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算,有时我们...原创 2018-05-04 16:00:06 · 1305 阅读 · 0 评论 -
spark的反压与推测机制
反压背景在默认情况下,Spark Streaming 通过 receivers (或者是 Direct 方式) 以生产者生产数据的速率接收数据。当 batch processing time > batch interval 的时候,也就是每个批次数据处理的时间要比SparkStreaming 批处理间隔时间长;越来越多的数据被接收,但是数据的处理速度没有跟上,导致系统开始出现数据堆...原创 2019-01-09 20:35:32 · 1492 阅读 · 2 评论