
hadoop基础
zhangshk_
一直在路上。。。
展开
-
hadoop FileSystem shell 详解
hdfs命令是hadoop提供的操作HDFS分布式文件系统的shell命令客户端,我们可以通过该命令对分布式文件系统进行文件的增删查操作,也可以通过该命令获取到一些hadoop的相关配置信息,而且我们启动hdfs相关服务进程都是通过该命令进行的。 hdfs命令主要分为两类,一类是用户命令:dfs, fsck等,一类是管理员命令:dfsadmin,namenode,datanode等。 ...原创 2018-09-30 15:46:46 · 344 阅读 · 0 评论 -
阿里云三台节点,搭建完全分布式hadoop集群,超简单
完全分布式的安装 1、集群规划 角色分配 NODE-47 NODE-101 NODE-106 HDFS Namenode Datanode SecondaryNamenode Datanode Datanode YARN Nodemanager ...原创 2018-09-13 18:28:36 · 9924 阅读 · 13 评论 -
云服务搭建hadoop集群 ,往hdfs文件系统中put文件的时候报错0 nodes instead of minReplication (=1). There are 3 datanode(s)
报错信息:put: File /test/README.txt._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1). There are 3 datanode(s) running and 3 node(s) are excluded in this operation. 原因:...原创 2018-09-13 18:25:19 · 1124 阅读 · 0 评论 -
常见大数据和空间面试题
过滤100亿黑名单题目假设有100亿个URL的黑名单,每个URL最多占用64B,设计一个过滤系统,判断某条URL是否在黑名单里。要求不高于万分之一的判断失误率;额外内存不超过30GB答案100亿个64B的URL需要640GB的内存,显然直接存哈希表不合理。考虑布隆过滤器,假设有一个长度为m的bit类型数组,如图所示:输入阶段:有k个哈希函数,函数的输出域S大于或等于...转载 2018-08-28 19:00:42 · 191 阅读 · 0 评论 -
Yarn的架构和概念--通过Yarn调度job的完整执行流程
Hadoop1.X版本中 通过JobTracker进行任务的调度和监控,以及集群资源的管理。TaskTracker用于在在节点上执行map reduce任务。 Yarn把JobTracker的任务分为两个部分:ResourceManger和ApplicationMaster分别进行资源额管理和任务的管理。使用NodeManager替代原来的TaskTracker,执行map reduce 任务原创 2017-12-24 15:43:07 · 1261 阅读 · 0 评论 -
hadoop的Namenode元数据持久化机制(fsImage、Edit)与secondaryNamenode的真正作用详解
我们都知道namenode是用来存储元数据的,他并不是用来存储真正的数据。 那么他的元数据怎么进行持久化呢!FsImage文件系统的镜像文件叫fsImage,它包括了文件和块信息的映射,还有文件系统的属性信息。datanode启动的过程中 首先会向namenode注册块信息,这些块信息就是存储在namenode的FsImage中的。EditLog对于文件系统的每一次更改,例如,增加文件,删除文件等原创 2017-12-24 13:57:12 · 4525 阅读 · 0 评论 -
hadoop安装问题---datanode无法启动
Datanode需要放在一个指定的,目录下,这个需要在core-site.xml中指定。 如果没有指定那么,默认放在一个临时目录,每次电脑重启,数据都会丢失。 所以我们要指定一个存放datanode文件的路径 将下面配置放入core-site.xml 重新format <property> <name>hadoop.tmp.dir</name> <val原创 2017-12-24 10:27:06 · 504 阅读 · 0 评论 -
HDFS介绍以及Java API实战
HDFS文件系统介绍 Hadoop提供的操作HDFS的api接口是以FileSystem为基础的,在该类中提供一系列操作文件的方法,比如:文件上传copyFromLocalFile方法,创建文件create方法,删除文件delete方法等。该类的全称为org.apache.hadoop.fs.FileSystem。主要的子类有:DistributedFileSystem, WebHdfsF...原创 2018-09-30 15:57:34 · 673 阅读 · 0 评论