
hadoop
文章平均质量分 70
仙人掌仙人
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop概况与hdfs部署
一、hadoop概况广义的Hadoop是指以hadoop软件为主的生态圈狭义d的hadoop是指hadoop软件大数据软件官网:hadoop: hadoop.apache.orghive: hive.apache.orgspark: spark.apache.orgflink: flink.apache.orghadoop软件版本:1.x2.x 生产上多用2.x版本3.x 在...原创 2018-10-05 14:10:26 · 660 阅读 · 0 评论 -
大数据之MapReduce了解及MapReduce Job提交到Yarn的工作流程
MapReduce主要用途是进行分布式计算一、MapReduce理解宏观上的理解:MapReduce仅仅是作为客户端(Client)把代码程序提交到Yarn平台上,MapReduce jar在Yarn上运行,属于客户端提交的过程,hdfs上传的命令。MapReduce指的是Map()和Reduce()函数,正常写的代码是需要继承它的,但是企业上进行生产一般是不会用它,但是它也至关重要,因为...原创 2018-10-21 14:01:55 · 827 阅读 · 0 评论 -
大数据之Yarn详解
1、Yarn的架构设计:这个过程一共是有8个步骤:1、用户向Yarn中的ResourceManager提交应用程序,其中包括ApplicationMaster程序,启动ApplicationMaster命令、用户命令等。2、ResourceManager首先为该Application程序分配第一个Container容器,并与对应的Node Manager通信,要求Node Manag...原创 2018-10-28 15:46:29 · 2379 阅读 · 0 评论 -
大数据之hdfs详解之六:读流程
–之前也说过读写操作对于用户来说是透明的、无感知的,用户并不关心文件是如何写进去和读出来的,例如hdfs dfs -ls 、hdfs dfs -cat、hdfs dfs -du等命令都是读流程,可以说除了上传等的命令,大部分常用的hdfs命令是读流程的。首先来看下方的一张图,经典读流程图:下面的3个DataNode可以看作是3台不同的机器运行的进程,HDFS Client和NameN...原创 2018-10-15 23:48:58 · 242 阅读 · 0 评论 -
大数据之hdfs详解之五:垃圾回收站剖析
首先需要明白一点,现在linux系统好像没有回收站的说法了,所以在删除别人的文件或文件夹之前一定要慎重,毕竟rm命令是高危命令,删除了就没有了,所以对于高危命令,我们要保持敬畏之心.hdfs在部署的时候默认垃圾回收站是禁用的,因此hdfs是可以开启垃圾回收站的。先看看官网对回收站的解释:第一个参数:fs.trash.interval=0 表示禁用Number of minutes aft...原创 2018-10-13 14:27:50 · 743 阅读 · 0 评论 -
大数据之hdfs详解之四:pid文件剖析
pid 默认存储在/tmp目录下,pid里面的内容就是进程号pid文件删除,不影响服务正常运行和用户的读写,但是:Stop:关闭不掉start:重新起另一个进程例如将namenode的pid 文件删除掉:[hadoop@hadoop001 tmp]$ rm -f hadoop-hadoop-namenode.pidjps查看进程,namenode还存在的,因为jps命令是读取hspe...原创 2018-10-13 14:05:56 · 469 阅读 · 0 评论 -
大数据之hdfs详解之三:put权限剖析与常用命令
–无论是对于hdfs的读和写,对于用户来说都是无感知的、透明的操作,用户并不关心数据如何读出来如何写进去的,只要返回一个结果告诉用户数据读出来了或写进去了,至于怎么读怎么写,用户并不关心补充:读:hdfs dfs -ls / = hdfs dfs -ls hdfs://hadoop001:9000/hdfs dfs -ls / /是hdfs文件系统的根目录 而不是Linux...原创 2018-10-13 14:00:35 · 13455 阅读 · 2 评论 -
hadoop之hdfs详解之二:写流程
客户端通过rpc与NN通信写文件命令:bin/hdfs dfs - put xxx.log /usr/hadoop/data/1、Client调用(Distributed FileSystem)filesystem.creat(path),与NN进行rpc通信,NN check Path是否已经存在及有没有权限创建;-假如ok,就创建一个新文件,但是不关联任何的block,返回一个FS...原创 2018-10-05 16:55:57 · 218 阅读 · 0 评论 -
hadoop之hdfs详解之一
HDFS 是单台或集群伪分布式部署NameNode 简称NNSecondaryNameNode简称SNNDataNode简称DNNN、DN、SNN部署在同一台机器上hdfs启动的命令脚本:sbin/start-dfs.sh:即将linux文件上传到hdfs存储里面,相当于windows上传文件到安装在电脑上的百度云盘上命令位置:bin/hdfs dfs -ls /1、bl...原创 2018-10-05 16:43:49 · 563 阅读 · 0 评论 -
hadoop之ssh命令、scp命令与建立多台机器互相信任关系
一、ssh命令:(1)查看命令帮助:(2)[user@]hostname [command]如果不添加user@的话,表示ssh远程连接hostname所在的机器是以当前ssh这个命令所在的当前用户来连接(3)指定端口号:ssh root@ip -p xxx(4)打印一个日期:ssh root@ip date[root@hadoop001 ~]# ssh root@47.75.24...原创 2018-10-05 16:16:47 · 1474 阅读 · 0 评论 -
hadoop之hdfs命令剖析
(1)查看hdfs主从架构进程[hadoop@hadoop001 hadoop-2.6.0-cdh5.7.0]$ jps13490 DataNode14800 ResourceManager13366 NameNode25008 Jps13651 SecondaryNameNode(2)jps命令的位置:来自java[hadoop@hadoop001 hadoop-2.6.0...原创 2018-10-05 15:57:28 · 311 阅读 · 0 评论 -
hadoop之hdfs的3个节点以同一进程启动
HDFS三个进程启动都以xxxxxxxx启动:以我自己的机器名称为例:HDFS三个进程启动以hadoop001启动:etc/hadoop目录下设置之前在部署hdfs时候修改了core-site.xml文件slaves文件(1)在core-site.xml文件中修改fs.defaultFS参数为hadoop001,使NameNode进程以hadoop001启动。(2)在slaves文...原创 2018-10-05 15:47:15 · 656 阅读 · 0 评论 -
hadoop 之 mapreduce job 案例练习
mapreduce job 案例官网要求:1、Make the HDFS directories required to execute MapReduce jobs:$ bin/hdfs dfs -mkdir /user$ bin/hdfs dfs -mkdir /user/< username>2、Copy the input files into the distri...原创 2018-10-05 15:25:13 · 553 阅读 · 0 评论 -
hadoop之yarn部署
yarn伪分布式部署:YARN on Single NodeYou can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceManager daemon and NodeManager daemon in addition.The...原创 2018-10-05 14:50:02 · 2047 阅读 · 0 评论 -
#转载#YARN的Memory和CPU调优配置详解
资源调优:http://blog.itpub.net/30089851/viewspace-2127851/转载 2018-10-24 16:13:21 · 347 阅读 · 0 评论