
hadoop
奇妙探险家
浮光跃金,静影沉璧
展开
-
hadoop常用命令
1.启动伪分布式系统./sbin/start-dfs.sh关闭./sbin/stop-dfs.sh2.创建文件夹./bin/hdfs dfs -mkdir /hadoop-mkdir /hadoop3.传入文件./bin/hdfs dfs -put ./etc/hadoop/*.txt /hadoop4 查看文件夹./bin/hdfs dfs -ls ...原创 2016-12-31 02:42:07 · 553 阅读 · 0 评论 -
数据倾斜
产生原因:shuffle过程中部分key占比过大,导致计算集中到个别reducer或者executor上,拖慢了整体计算时间。解决方法:1、过滤少数导致倾斜的key:shuffle前将这些key排除掉,不对其进行计算。(hive的where字句,spark的filter)2、提高shuffle操作的并行度:增加reducer数目、spark中给shuffle算子传入并行度参数,旨在减少...原创 2019-03-16 19:08:14 · 195 阅读 · 0 评论 -
Mapreduce中Mapper、Partition、Reducer数目的确定与关系
Mapper:由客户端分片情况决定,客户端获取到输入路径的所有文件,依次对每个文件执行分片,分片大小通过最大分片大小、最小分片大小、hdfs的blocksize综合确定,分片结果写入job.split提交给yarn,对每个分片分配一个Mapper,即确定了数目。Partition:由PartitionerClass中的逻辑确定,默认情况下使用的HashPartitioner中使用了hash值与...原创 2018-07-31 23:14:24 · 4229 阅读 · 0 评论 -
hadoop详解参考教程
Hadoop NameNode 高可用 (High Availability) 实现解析https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/hadoop2.x NameNode 的共享存储实现、切换https://www.cnblogs.com/nucdy/p/5892179.htmlhad...原创 2018-07-06 17:27:34 · 218 阅读 · 0 评论 -
hadoop 安装配置笔记
1. 启用伪分布式模式时,明明配置了JAVA_HOME,java -version和echo $JAVA_HOME都测试通过,但使用./sbin/start-dfs.sh仍然提示找不到JAVA_HOME,需要在/home/wind/桌面/software/hadoop/etc/hadoop/hadoop-env.sh中修改第一行为export JAVA_HOME=/home/wind/桌面/sof原创 2016-12-31 01:51:16 · 1326 阅读 · 0 评论 -
hadoop完全分布式教程网页
1、http://blog.youkuaiyun.com/ab198604/article/details/82504612、http://www.cnblogs.com/laov/p/3421479.html转载 2017-01-03 14:34:59 · 669 阅读 · 0 评论 -
mapruduce笔记
1,Text格式只在传输过程中使用(context.write和value),map/reduce正文中都需要将value转化为String类型再使用,如果直接将value加入treemap则会将其视为对象引用,导致treemap中所有的值都相等!2,如果输出路径存在就删除Path in = new Path(args[0]); //如果存在路径就删除之Path out = new P...原创 2017-05-30 22:01:14 · 1066 阅读 · 0 评论 -
hadoop部分错误记录
1.注意每一个hadoop项目都应该有这个log4j配置文件,否则将无法调试 log4j:WARN no appenders could be found for logger原地址:http://blog.youkuaiyun.com/shennongzhaizhu/article/details/50493338初次使用ubuntu14.04+eclipse(mars)+Hadoop-2....转载 2017-01-01 00:58:11 · 1171 阅读 · 0 评论 -
hadoop二次排序实现join
package join;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.原创 2017-04-03 12:58:46 · 365 阅读 · 0 评论 -
Hadoop执行流程
1、shuffle2、MR on yarn运行流程3、spark通信模型4、spark执行流程建立DAG 切分stage,形成taskSet(DAGScheduler) 将taskSet发送给worker执行(TaskScheduler)从finalRDD开始自后向前递归划分stage,以shuffleDependency(宽依赖)为划分界限,每个stage...原创 2019-03-23 13:44:04 · 1257 阅读 · 0 评论