
hadoop&spark
xbmatrix
这个作者很懒,什么都没留下…
展开
-
Spark性能优化:数据倾斜调优
参考:http://blog.youkuaiyun.com/u012102306/article/details/51556450前言 继《Spark性能优化:开发调优篇》和《Spark性能优化:资源调优篇》讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题转载 2017-02-27 23:39:14 · 285 阅读 · 0 评论 -
MapReduce:详解Shuffle过程
参考:http://langyu.iteye.com/blog/992916/** * author : 冶秀刚 * mail : dennyy99@gmail.com */ Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里转载 2017-02-23 21:35:03 · 249 阅读 · 0 评论 -
MapReduce的Shuffle过程介绍
参考:http://blog.itpub.net/29754888/viewspace-1704959/Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道Map转载 2017-02-23 21:37:48 · 362 阅读 · 0 评论 -
Hadoop中两表JOIN的处理方法
参考:http://dongxicheng.org/mapreduce/hadoop-join-two-tables/1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法转载 2017-02-23 21:39:11 · 496 阅读 · 0 评论 -
Hadoop DistributedCache详解
参考:http://dongxicheng.org/mapreduce-nextgen/hadoop-distributedcache-details/DistributedCache是Hadoop提供的文件缓存工具,它能够自动将指定的文件分发到各个节点上,缓存到本地,供用户程序读取使用。它具有以下几个特点:缓存的文件是只读的,修改这些文件内容没有意义;用户可以调整文件可见范围(比如只能用户自转载 2017-02-23 22:38:13 · 416 阅读 · 0 评论 -
spark-shell报错:java.net.UnknownHostException
参考:https://my.oschina.net/heguangdong/blog/13678启动spark-shell报错:java.net.UnknownHostException: 主机名: 主机名 unknown error修改/etc/hosts文件127.0.0.1 主机名 localhost.localdomain localhost或是再添加一转载 2017-03-30 20:50:44 · 2860 阅读 · 0 评论 -
数据倾斜是多么痛?spark作业调优秘籍
参考:http://www.tuicool.com/articles/qUBJbuV有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜是多么痛?!!!如果数据倾斜没有解决,完全没有可能进行性能调优,其他所有的调优手段都转载 2017-03-31 22:40:39 · 491 阅读 · 0 评论 -
sbt
1. 安装sbta. 下载http://www.scala-sbt.org/download.htmlb. 解压到/opt/sbtc. 创建/opt/sbt/sbt文件,内容为:BT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"java $SBT_OPTS原创 2017-04-01 21:32:54 · 478 阅读 · 0 评论