
Spark
狂奔吧蜗牛
专注大数据领域,熟悉Hadoop、Hbase、Hive、Spark、Kudu、Kylin、Kafka、Flumn、Sqoop、ES、数据仓库、Apache Atlas等。
展开
-
指南:优化Apache Spark作业(第2部分)
说明:借助谷歌翻译,以个人理解进行修改原文地址:https://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/在本系列的结语中,了解资源调优,并行性和数据表示如何影响Spark作业性能。在这篇文章中,我们将完成“指南:优化Apache Spark作业(第1部分)”中的内容。我将尽力涵盖所有你想知道的...翻译 2018-03-22 23:43:29 · 263 阅读 · 0 评论 -
Spark任务调优(1)——数据本地化
Spark官网有关于数据本地化的相关介绍:http://spark.apache.org/docs/2.1.0/tuning.html#data-locality本地化说明数据本地化可以对Spark任务的性能产生重大影响。如果数据和操作数据的代码在一块,计算通常会很快。但是如果数据和代码不在一起,就必须将一方移动到另一方。通常,将序列化的代码块从一个地方发送到另一个地方要比发送数据更快,因为代码的...原创 2018-03-23 19:06:45 · 1539 阅读 · 1 评论 -
指南:优化Apache Spark作业(第1部分)
说明:借助谷歌翻译,以个人理解进行修改原文地址:http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-1/学习调整Apache Spark作业以获得最佳效率的技巧。当您通过公共API编写Apache Spark代码和页面时,您会遇到像transformation,action和RDD这样的单词。在...翻译 2018-03-22 00:04:18 · 262 阅读 · 0 评论 -
Spark java.lang.UnsupportedClassVersionError: xxxxxx: Unsupported major.minor version 52.0 解决方案
在运行Spark程序时,出现如下错误:Exception in thread "main" java.lang.UnsupportedClassVersionError: com/company/bi/spark/UserInfoToHbase : Unsupported major.minor version 52.0 at java.lang.ClassLoader.defineCla...原创 2018-12-07 18:17:11 · 3476 阅读 · 0 评论 -
CDH 环境集成Kudu、Spark2服务方案及相关问题的解决方案
环境:Centos 7 、CDH 5.10.2、 Kudu1.4.0-1.cdh5.12.0.p0.25、Spark 2.2.0.cloudera1-1.cdh5.12.0.p0.142354我用了一天时间重新搭建了一个测试集群,在此过程中其他都很顺利,但是在安装Kudu、Spark2服务的时候遇到了一点问题,在这里记录下。按照官网的说明,CDH 在5.12之后的版本集成了Kudu...原创 2019-03-14 17:39:15 · 864 阅读 · 0 评论 -
hive on spark 调优点
目录yarn配置1. 配置cores2. 配置内存spark配置1. executor内存2. driver内存3. executor数4. 动态executor申请5. 并行度hive配置预启动YARN容器hive on spark 性能远比hive on mr 要好,而且提供了一样的功能。用户的sql无需修改就可以直接运行于hive on sp...转载 2019-04-09 10:15:52 · 1386 阅读 · 0 评论 -
本地Spark连接Hive异常问题
环境:idea spark2.2 hive1.1 maven3场景:本地运行Spark代码,连接Hive集群查询数据:本地设置了SPARK_HOME、SCALA_HOME将hive-site.xml复制到本地的%SPARK_HOME%/conf/路径下代码如下:def main(args: Array[String]): Unit = { val wareho...原创 2019-07-08 18:56:40 · 7209 阅读 · 0 评论