
Hdfs
Deng_huakai
花开自会落
展开
-
hdfs学习进程1
block块与副本数的概念块:dfs.blocksize :134217728 / 128M副本数:dfs.replication 1 / 3 (学习过程设置为1,正常生产中设置为3),副本数指的是一个块的复制数。面试:一个文件160m,副本数2,块大小128m,实际存储空间多少?块数量多少? 答案:块的数量为22=4,实际存储空间为1602HDFS架构设计NN 主 名称节点 ...原创 2018-11-05 22:07:34 · 232 阅读 · 0 评论 -
hdfs
hadoop广义:以Hadoop软件为主的生态圈狭义:Hadoop软件hadoop.apache.org hive.apache.org spark.apache.org flink.apache.org生产上一般用Hadoop2.x 版本(因为考虑到很多软件在一起用的兼容性,所以不用最新的3.x的版本)hadoop2.x组件:hdfs: 存储 分布式文件系统 底层 生产...原创 2018-10-28 19:28:28 · 166 阅读 · 0 评论 -
Hadoop 集群之HDFS HA、Yarn HA
部署集群的原因如果我们采用单点的伪分布式部署,那么NN节点挂了,就不能对外提供服务。集群的话,存在两个NN节点,一个挂了,另外一个从standby模式直接切换到active状态,实时对外提供服务(读写)。在生产上,避免出现对外服务中断的情况,所以会考虑采用集群部署。HDFS HA (High availability)单点式伪分布:NNSNN secondary 1小时checkpoin...原创 2018-11-25 16:32:37 · 406 阅读 · 0 评论 -
hdfs回收站的开启
rm -rf /xxxx 属于高危命令 Linux没有回收站hdfs可以开启回收站。开启方法:通过配置[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]cd/etc/hadoop下的core−site.xml文件,参照官网,fs.trash.checkpoint.interval参数对应的值为0时就是禁用回收站,默认就是禁用。将其设置为1440就代表1天,即保留...原创 2018-11-12 17:34:55 · 822 阅读 · 0 评论 -
hdfs 的三个节点的pid文件分析
pid文件默认存储在/tmp目录下pid内容就是进程号[hadoop@hadoop001 tmp]$ cat hadoop-hadoop-datanode.pid9144修改/home/hadoop/app/hadoop-2.6.0-cdh5.7.0/etc/hadoop文件夹下的hadoop-env.sh文件里面的参数。export HADOOP_PID_DIR=${HADOOP_PI...原创 2018-11-12 17:15:23 · 261 阅读 · 0 评论 -
HDFS常用命令
[hadoop@hadoop002 hadoop-2.6.0-cdh5.7.0]$ hdfs dfs -ls /hdfs dfs -put a.txt / (上传,把a.txt文件上传到hdfs的根目录/ 下)hdfs dfs -get /a.txt ./ (下载,把hdfs根目录下的a.txt下载到当前目录)hdfs dfs -copyFromLocal a.txt /(上传...原创 2018-11-12 16:45:30 · 366 阅读 · 0 评论 -
hdfs操作命令的权限问题
权限报错问题[root@hadoop002 hadoop-2.6.0-cdh5.7.0]# bin/hdfs dfs -put README.txt /ruozedata (当不在hadoop用户下的时候,就要严格在其bin目录下执行hdfs的命令)put: Permission denied: user=root, access=WRITE,inode="/ruozedata":ha...原创 2018-11-12 16:30:36 · 1128 阅读 · 0 评论 -
hdfs写流程
流程图如下:Client调用FileSystem.create(filePath),去与NN节点进行RPC通信,check该路径下的文件是否已经存在?是否有权限创建该文件?假如OK,就创建一个新的文件,但是不关联任何的block,返回一个FSDataOutputStream对象;假如不OK,就返回错误信息Client调用FSDataOutputStream对象的write方法,将第一个块写...原创 2018-11-12 16:12:10 · 189 阅读 · 0 评论 -
hdfs读流程
面试宝典流程图如下:client通过分布式FileSystem.open(path)方法(其实就是传入路径,读的具体文件的路径),去与NN进行RPC通信,NN会校验路径是否存在 权限是否OK。校验完成后,返回文件的部分或全部的block列表(其实就是返回FSDataInputStream对象)(假如块的数量比较多,那么可能先返回文件的部分块,等这一部分块读完之后,再继续返回其他的块)C...原创 2018-11-12 15:25:26 · 154 阅读 · 0 评论 -
文件写流程
上传hdfs dfs -put ruozedata.log /user/hadoop/day01/ (把本地文件ruozedata.log复制上传到hdfs下的/user/hadoop/day01/ 的文件夹下面)注释流程Client调filesystem.create(path),与nn rpc通信,check path是否已经存在及有没有权限创建;(rpc通信是面试题)假如OK,...原创 2018-11-12 14:51:02 · 208 阅读 · 0 评论 -
Yarn
配置文件按照官网配置文件mapred-site.xml文件:[hadoop@hadoop002 hadoop]$ cp mapred-site.xml.template mapred-site.xml (因为mapred-site.xml 文件没有,所以复制一个模板文件并重新命名按照官网上面改)(参照txt中的内容进行修改)修改etc/hadoop/yarn-site.xml文件(yarn-...原创 2018-10-30 15:17:35 · 342 阅读 · 0 评论