Spark
王杰0110
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark读取MySQL大Table的效能问题
在测试从Spark Shell读取MySQL一张Large Table时,发生了Out of memory和connection timeout问题,记录一下处理的过程:MySQL Table资料笔数:1400万笔左右Spark Cluster配置:Master * 1,Slave * 3,皆为1 core 8G Spark版本:2.1.1星火配置配置:spark-env.s...转载 2019-03-13 16:32:19 · 1116 阅读 · 0 评论 -
大数据学习之路108-spark streaming基于redis历史state统计
我们之前使用spark streaming做过基于mysql的历史state统计,但是当时的方法很笨,因为写到mysql中第一是性能不好,第二是编码麻烦,所以一般不会有人那么做。而且当时的数据来源是socket。所以现在我们的业务就是:通过一个客户端工具实时的写数据到kafka中,然后通过spark streaming实时的监控并消费出来。写入到redis中进行实时的统计。首先我们需要写一个...转载 2019-05-11 11:06:08 · 355 阅读 · 0 评论 -
干货 | 如何成为大数据Spark高手
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询等方面的所有核心问题,具有完善的生态系统,这直接奠定了其一统云计算大数据领域的霸主地位。伴随Spark技...转载 2019-05-11 10:59:25 · 153 阅读 · 0 评论 -
Spark Shuffle FetchFailedException解决方案
在大规模数据处理中,这是个比较常见的错误。报错提示SparkSQL shuffle操作带来的报错org.apache.spark.shuffle.MetadataFetchFailedException: Missing an output location for shuffle 0org.apache.spark.shuffle.Fe...转载 2019-04-17 17:15:16 · 1924 阅读 · 0 评论 -
spark 资源大小分配与并行处理
起因写这篇博客的起因我在跑一个spark job时,有时能跑通,有时跑不通。程序的需求是对比两个hbase表。程序逻辑很简单,分别从两个hbase表读取全量数据,然后以cogroup二者,对比同一个rowkey下每个列是否一致。跑不通的错误日志如下:17/02/25 21:24:20 INFO collection.ExternalAppendOnlyMap: Threa...转载 2019-04-17 17:08:46 · 2283 阅读 · 0 评论 -
『 Spark 』14. 一次 Spark SQL 性能提升10倍的经历
写在前面本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有必要的细节就不会记录了,而且文中有时候会出现英文原版文档,只要不影响理解,都不翻译了。若想深入了解,最好阅读参考文章和官方文档。其次,本系列是基于目前最新的 spark 1.6....转载 2019-04-17 16:10:15 · 800 阅读 · 0 评论 -
spark jdbc(mysql) 读取并发度优化
很多人在spark中使用默认提供的jdbc方法时,在数据库数据较大时经常发现任务 hang 住,其实是单线程任务过重导致,这时候需要提高读取的并发度。 下文以 mysql 为例进行说明。在spark中使用jdbc在 spark-env.sh 文件中加入:export SPARK_CLASSPATH=/path/mysql-conn...转载 2019-04-17 15:29:18 · 1144 阅读 · 1 评论 -
【Spark系列8】Spark Shuffle FetchFailedException报错解决方案
前半部分来源:http://blog.youkuaiyun.com/lsshlsw/article/details/51213610后半部分是我的优化方案供大家参考。+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++SparkSQL shuffle操作带来的报错org....转载 2019-04-17 15:11:34 · 1147 阅读 · 0 评论 -
Spark GC 调优
我们的Spark环境目前主要问题是数据量大后一些task的GC Time 特别长,多则几分钟,少则几十秒,实在不能忍受。参考databricks的 Tuning Java Garbage Collection for Spark Applications对我们的环境优化后,效果比较明显。选择垃圾收集器如果分配给单个Executor的...转载 2019-04-17 15:05:07 · 1491 阅读 · 0 评论 -
GC overhead limit exceeded : Spark
我在运行Spark程序的时候报错java.lang.OutOfMemoryError:GC overhead limit exceeded伴随着通常有:java.lang.OutOfMemoryError:Java heap spaceorg.apache.spark.shuffle.FetchFailedException:Failed to connect to ......转载 2019-04-17 14:57:05 · 5221 阅读 · 0 评论 -
Apache Spark 内存管理详解
Apache Spark 内存管理详解Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的...转载 2019-05-11 11:12:55 · 205 阅读 · 0 评论
分享