
spark
sghuu
这个作者很懒,什么都没留下…
展开
-
Spark读取本地文件写法
spark入门原创 2022-11-15 16:45:35 · 1237 阅读 · 0 评论 -
SparkSql 读mysql数据写入到Es
话不多说直接上代码1.Scala版本 (将mysql的两个表join然后将结果插入到ES中) <dependencies> <dependency> <groupId>mysql</groupId> <artifactId>mysql-connector-java</artifactId> <version>5.1.27<原创 2020-07-30 16:06:59 · 812 阅读 · 0 评论 -
spark的任务划分和任务调度详解
以spark-cluster模式为例spark的任务提交流程介绍:https://blog.youkuaiyun.com/sghuu/article/details/103710145提交一个Spark应用程序,首先通过Client向ResourceManager请求启动一个Application,同时检查是否有足够的资源满足Application的需求,如果资源条件满足,则准备ApplicationMa...原创 2019-12-26 11:35:39 · 2673 阅读 · 0 评论 -
spark的数据倾斜的6种解决方案
1 解决方案一:聚合原数据避免shuffle过程·绝大多数情况下,Spark作业的数据来源都是Hive表,这些Hive表基本都是经过ETL之后的昨天的数据。为了避免数据倾斜,我们可以考虑避免shuffle过程,如果避免了shuffle过程,那么从根本上就消除了发生数据倾斜问题的可能。如果Spark作业的数据来源于Hive表,那么可以先在Hive表中对数据进行聚合,例如按照key进行分组,...原创 2019-12-26 10:12:21 · 899 阅读 · 0 评论 -
spark容错的四种保证机制
spark容错的四种保证机制转载自:https://www.cnblogs.com/xiaoyh/p/11070549.html一、Spark RDD容错原理 RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。对于宽依赖而言,由于宽依赖实质是指父RDD的一个分区会对应一个子RDD的多个分区,在此情况下出现部分计算结果丢失,单一计算丢失的数据无法达到效果,便采用重新计算该...原创 2019-12-17 23:34:52 · 1950 阅读 · 0 评论 -
SparkStreaming并行度的计算方式和设置(spark官方文档介绍)
这是官网上的截图:通过网络(例如Kafka,Flume,套接字等)接收数据需要对数据进行反序列化并将其存储在Spark中。如果数据接收成为系统的瓶颈,请考虑并行化数据接收。请注意,每个输入DStream都会创建一个接收器(在工作计算机上运行),该接收器接收单个数据流。因此,可以通过创建多个输入DStream并将其配置为从源接收数据流的不同分区来实现接收多个数据流。例如,可以将接收两个主题数据...原创 2019-12-17 21:18:42 · 1521 阅读 · 0 评论 -
基于redis的控制sparkStreaming 对接kafka 精确一次消费数据的解决方案
demo程序使用"KafkaUtils.createDirectStream"创建Kafka输入流,此API内部使用了Kafka客户端低阶API,不支持offset自动提交(提交到zookeeper)。"KafkaUtils.createDirectStream"官方文档:http://spark.apache.org/docs/2.2.0/streaming-kafka-0-8-integr...原创 2019-12-17 20:54:36 · 1706 阅读 · 0 评论 -
spark on yarn 上的两种模式 client 和 cluster
比较详细比较全面:https://www.jianshu.com/p/0ee5e941a7cb原创 2019-12-16 18:34:33 · 504 阅读 · 0 评论 -
spark on yarn的提交流程
spark on yarn cline 模式在YARN Client模式下,Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当...原创 2019-12-15 13:58:47 · 623 阅读 · 0 评论 -
RDD、DataFrame、和DataSet三者的区别
在 SparkSQL 中 Spark 为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)如果同样的数据都给到这三个数据结构,他们分别计算之后,都会给出相同的结果。不同是的他们的执行效率和执行方式。在...原创 2019-12-15 11:06:54 · 421 阅读 · 0 评论 -
spark从四个方面调优
一、常规性能调优1.最佳的资源配置 Executor个数 Executor核数 Executor内存大小2. rdd优化 对于需要多次用到的数据进行持久化 , 尽量将filter的操作提前3.并行度的优化 并行度的调节,一般设置task数量为核数的2-3倍,与数据量的大小无关4.采取 广播大变量5.采用kryo压缩格式6.调节本地化等待的时长...原创 2019-12-15 09:44:43 · 316 阅读 · 0 评论 -
spark的四种shuffle机制
1.未经优化的HashShuffleManager 下一个stage有n个task,则该stage的有m个task都生成n文件,在落盘时会生成nm个文件,大量小文件性能效率差2.优化的HashShuffleManager 一个Excutor里面的同stage的task共用一个buffler内存,在shuffle过程中,task就不用为下游stage的每个task创建一个磁盘文件了,而是...原创 2019-12-14 22:17:18 · 643 阅读 · 0 评论 -
spark为什么比mapreduce快
**spark为什么比mapreduce快**当问到这个问题时总是回答:“spark是基于内存 hadoop是基于磁盘” ,我感觉这个说法不是很严谨 ,所有运算都是基于内存的spark和mr都是基于内存的运算,不通的是数据源的的来源,比如mr每次的数据源都是来源磁盘文件,而spark是可以基于之前运算的的缓存所以速度会快。<正题>spark 比mr快的原因:spark的官...原创 2019-12-14 22:05:40 · 443 阅读 · 0 评论