
Hadoop
文章平均质量分 55
hadoop相关知识和实战
浮云6363
这个作者很懒,什么都没留下…
展开
-
合并本地或hdfs上的小文件
众所周知,HDFS中过多的小文件,会给NameNode造成很大的压力,所谓的小文件,是指远远小于文件块大小的文件。在使用HDFS的过程中,应尽量避免生成过多的小文件。本文以TextFile为例,介绍一下从本地–>HDFS、HDFS–>本地、以及HDFS–>HDFS的文件上传下载移动过程中,对小文件的合并方法。将本地的小文件合并,上传到HDFS假设存放在本地的数据由很多个小文件组成,需要上传到HDFS。一般的做法是在本地使用脚本、程序先把小文件合并后再上传。其实没有必要,HDFS中原创 2022-04-30 15:46:37 · 2332 阅读 · 0 评论 -
hadoop 异常 问题解决:NameNode is still loading. Redirecting to the Startup Progress page
环境:apache hadoop 3.2.2 、机器发生重启,集群异常关闭现象:重启hdfs和yarn服务,底层namenode和datanode都没有报错,但是在namenode的web ui上报错这种一般发生在一个namenode挂掉之后,隔一段时间重启,那么这个重启namenode需要加载到最新的fsimage,这种情况就是正常的,根据fsimage大小,加载的时间长短也是不一样的。如果加载很慢,修改hadoop-env.sh,对其参数进行内存调优# 扩大一下2个参数的jvm使用内存,原来原创 2021-09-05 17:22:17 · 2954 阅读 · 0 评论 -
windows子系统(wsl)Ubuntu18.4Hadoop的50070访问不了
在Windows子系统(wsl)Ubuntu18.4中安装了Hadoop3.2.2版本,然后启动那么namenode和datanode,通过jps发现服务正常,但是访问namenode的web界面却访问不了。首先我们来看看子系统用的是哪个ip再看看Windows的ip,可以看出两个ip是一致的,所以子系统可以访问外网修改core-site.xmlwe文件:<configuration> <!--指定hdfs的唯一入口,以及namenode的地址--> <pr原创 2021-09-05 17:14:37 · 785 阅读 · 0 评论 -
hadoop之参数mapreduce.job.reduce.slowstart.completedmaps
大家在执行 hive sql 走mr引擎时有没有发现日志打印信息, map 还没到100% reduce 就开始了。这是由于mapred-site.xml配置文件中有一个参数mapreduce.job.reduce.slowstart.completedmaps,这个参数可以控制当 map 任务执行到哪个比例的时候就可以开始为 reduce task 申请资源。Hadoop官网默认配置为0.05,那么map task在执行到5%的时候就开始为reduce进行申请资源,开始执行reduce操作,red原创 2021-05-30 22:04:59 · 797 阅读 · 1 评论 -
Hadoop优化有哪些方面
Hadoop的优化可以从以下方面进行:减少HDFS上的小文件的影响影响 NameNode 的寿命,因为文件元数据存储在 NameNode 的内存中影响计算引擎的任务数量,比如每个小的文件都会生成一个 Map 任务数据输入小文件处理:合并小文件:对小文件进行归档(Har)、自定义 Inputformat 将小文件存储成SequenceFile 文件采用 ConbinFileInputFormat 来作为输入,解决输入端大量小文件场景对于大量小文件 Job,可以开启 JVM 重用原创 2021-05-30 20:52:30 · 1239 阅读 · 0 评论 -
【shell】在shell中对HDFS文件及目录的判断
在shell中判断文件是否存在可以通过-f $fileName进行判断,判断文件夹是否存在可以通过-d $directory进行判断,如以下脚本:#!/bin/shfile="/opt/cdh-5.7.6/hadoop-2.6.0-cdh5.7.6/stop_all.sh"if [ ! -f "$file" ]; then echo "文件不存在!"else echo "文件存在!"fidirectory="/opt/cdh-5.7.6/hadoop-2.6.0-cdh5.7.6/原创 2021-03-20 21:20:00 · 1687 阅读 · 0 评论 -
HDFS查看文件的前几行-后几行-随机几行-行数-指定的行
今天想查看HDFS上文件的后30行,发现HDFS命令的tail参数后不能指定行数,只能跟文件,默认后10行$ cd /opt/cdh-5.7.6/hadoop-2.6.0-cdh5.7.6/$ bin/hdfs dfs -tail -30 /datas/access_log-tail: Illegal option -30Usage: hadoop fs [generic options]...原创 2019-01-24 12:28:01 · 8549 阅读 · 0 评论 -
【hadoop】Hadoop服务的端口50070无法访问的问题
hadoop的NameNode、DataNode、ResourceManager、NodeManager都已启动,可以远程服务器,可以通过hdfs dfs /访问hdfs,但浏览器就是打不开50070端口用netstat -ant发现8020和50070都只能本地访问找了很多资料,有说在core-site.xml配置中将fs.defaultFS配置为hdfs://0.0.0.0:8020,其实这样并没有效果后来终于通过hostname -i发现本地ip地址竟然有127.0.0.1将/etc/ho原创 2020-08-21 23:24:23 · 1540 阅读 · 0 评论 -
hadoop安装完后网页http://localhost:50070/ 打不开
首先通过jps查看namenode和datanode是否启动成功,如果没有启动成功,查找启动失败原因,这里是假设启动成功了的情况下访问不了50070。可能是防火墙没关闭centos7关闭防火墙systemctl start firewalld.service#启动firewallsystemctl stop firewalld.service#停止firewallsystemctl di...原创 2019-11-17 13:08:41 · 8051 阅读 · 0 评论 -
hadoop在Linux中的安装步骤及开发环境搭建
目录安装jdk伪分布式模式安装所有的大数据工具的操作都必须通过普通用户来执行,创建一个用户名为:fuyun创建安装所需文件夹sudo mkdir -p /opt/tools/ 创建文件夹/opt/tools 存储安装包sudo mkdir -p /opt/modules/ 创建文件夹/opt/software存储安装程序文件sudo mkdir -p /opt/datas 创建文件夹...原创 2019-06-13 19:30:55 · 818 阅读 · 0 评论