
hadoop
文章平均质量分 78
tiny@ant
coding
展开
-
mapred-site.xml参数配置详情
name valueDescriptionhadoop.job.history.location job历史文件保存路径,无可配置参数,也不用写在配置文件里,默认在logs的history文件夹下。hadoop.job.history.user.location 用户历史文件存放位置io.sort.factor30转载 2017-06-30 14:31:59 · 3907 阅读 · 0 评论 -
core-site.xml参数配置详情
fs.default.name hdfs://master:9000定义master的URI和端口fs.checkpoint.dir${hadoop.tmp.dir}(默认)/dfs/namesecondarySNN的元数据以,号隔开,hdfs会把元数据冗余复制到这些目录,一般这些目录是不同的块设备,不存在的目录会被忽略掉fs.check转载 2017-06-30 14:31:12 · 2617 阅读 · 2 评论 -
hdfs-site.xml配置参数详情
name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小,通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小,需要设置一些,主要是给非hdfs文件使用,默认是不保留,0字节转载 2017-06-30 14:30:06 · 1580 阅读 · 0 评论 -
datanode非dfs预留空间设置
在使用hdfs存储的时候可能会遇到一个问题:明明设置hadoop dfs.datanode.du.reserved预留空间的,但是磁盘还是被写满了。当你挂载磁盘作为datanode的存储空间,如果磁盘大小为500G当你使用df -h 可能会发现上面显示(举个例子):总磁盘大小500G,使用了430G,剩余50G,这里就会有个问题:500G-(430G+50G)=20G, 还差了20G空转载 2017-10-27 14:09:31 · 937 阅读 · 0 评论 -
YARN工作原理
YARN 中的应用程序提交本节讨论在应用程序提交到 YARN 集群时,ResourceManager、ApplicationMaster、NodeManagers 和容器如何相互交互。下图显示了一个例子。YARN 中的应用程序提交假设用户采用与 MRv1 中相同的方式键入 hadoop jar 命令,将应用程序提交到 ResourceManager。ResourceMa原创 2017-12-15 14:02:33 · 542 阅读 · 0 评论 -
Hadoop数据倾斜处理
何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念: 正常的数据分布理论上都是倾斜的,就是我们所说的20-80原理:80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量 , 不同的数据字段可能的数据倾斜一般有两种情况:一种是唯一值非常少,极少数值有非常多的记录值(唯一值少于几千)一种是唯一值比较多,这个字段...转载 2018-08-15 23:11:27 · 777 阅读 · 0 评论 -
Hadoop中Combiner和Partitioner应用场景
Combiner和Partitioner是用来优化MapReduce的。可以提高MapReduce的运行效率。Combiner集群上的可用带宽限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner(就像mapper,reducer)。combiner函数的输出作为reduce函数的输入...转载 2018-08-15 23:49:53 · 1998 阅读 · 0 评论 -
hadoop配置大全
core hdfs yarn mapredcore-default.xml hadoop.common.configuration.version 配置文件的版本。 hadoop.tmp.dir=/tmp/hadoop-${user.name} Hadoop的临时目录,其它目录会基于此路径。本地目录。 只可以设置一个值;建议设置到一个足够空...转载 2019-07-28 22:27:23 · 1164 阅读 · 0 评论