
Hadoop
weixin_43866709
The best or nothing
展开
-
hadoop中的Yarn和spark的StandAlone调度模式的对比
YARN的基本思想是将JobTracker的两个主要功能(资源管理和作业调度/监控)分离,主要方法是创建一个全局的ResourceManager(RM)和若干个针对应用程序的ApplicationMaster(AM)。这里的应用程序是指传统的MapReduce作业或作业的DAG(有向无环图)。 YARN 分层结构的本质是 ResourceManager。这个实体控制整个集群并管理应用程序向基础计算...原创 2019-05-28 09:16:37 · 545 阅读 · 0 评论 -
Permission denied: user=XX, access=WRITE, inode="/checkPoint/StateKafka":hadoop:supergroup:drwxr-xr
在Hadoop或者spark程序中,向hdfs中写入数据时常常会报这个错误: Permission denied: user=XX, access=WRITE, inode="/checkPoint/StateKafka":hadoop:supergroup:drwxr-xr 原因就是你所创建的这个hdfs的文件或者文件夹没有写入的权限或者这个用户组没有执行的权限。 解决办法:修改权限 1.修改用...原创 2019-04-07 10:10:03 · 650 阅读 · 0 评论 -
报错:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
在Windows上用IDEA本地运行Hadoop或者的spark程序时报错: java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries. 19/04/02 14:50:28 ERROR Shell: Failed to locate the winutils binar...原创 2019-04-02 15:27:21 · 1548 阅读 · 1 评论 -
HDFS读取数据分区的数量
今天认真的看了看RDD 的分区,感觉挺麻烦的,就在此记录总结一下,如果有错误,还请各位大神指出! 在我们使用并行化的方式创建sparkRDD的时候,我们可以指定RDD的分区。 我们知道,mapreduce读取文件时允许的最小分区是1,而spark允许的最小分区是2 hdfs读取文件时,默认会根据输入文件数量创建多少个task,生成对应数量的切片(文件小于blocksize). 首先查看一下hd...原创 2019-03-18 13:24:03 · 3122 阅读 · 0 评论 -
hdfs的核心工作原理
namenode元数据管理要点 1、什么是元数据? hdfs的目录结构及每一个文件的块信息(块的id,块的副本数量,块的存放位置) 2、元数据由谁负责管理? namenode 3、namenode把元数据记录在哪里? namenode的实时的完整的元数据存储在内存中; namenode还会在磁盘中(dfs.namenode.name.dir)存储内存元数据在某个时间点上的镜像文件; namenod...原创 2019-03-13 18:55:13 · 297 阅读 · 0 评论 -
hdfs命令行客户端的常用操作命令
hdfs客户端的常用操作命令 0、查看hdfs中的目录信息 hadoop fs -ls /hdfs路径 1、上传文件到hdfs中 hadoop fs -put /本地文件 /aaa hadoop fs -copyFromLocal /本地文件 /hdfs路径 ## copyFromLocal等价于 put hadoop fs -moveFromLocal /本地文件 /hdfs路径 ...原创 2019-03-13 18:47:48 · 708 阅读 · 0 评论 -
Centos7 +JDk1.8 + Hadoop2.7.7集群安装
hadoop中有3个核心组件: 分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MAPREDUCE —— 实现在很多机器上分布式并行运算 分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源 hdfs 工作机制: 1、客户把一个文件存入hdfs,其实hdfs会把这个文件切块后,分散存储在N台linux机器系统中(负...原创 2019-03-13 18:47:19 · 529 阅读 · 0 评论 -
zookeeper集群安装
1.下载zookeeper安装包 下载地址:https://www.apache.org/dist/zookeeper/ 2.上传到虚拟机中,解压。 3.修改配置文件(先在一个节点上配置) 3.1进入到conf目录,将zoo_sample.cfg修改为zoo.cfg mv zoo_sample.cfg zoo.cfg 3.2.退回上级目录,添加一个文件zkdatamkdir zkdata 3....原创 2019-03-11 18:34:37 · 256 阅读 · 0 评论 -
大数据学习中虚拟机准备工作(centos基础配置)
本文介绍的是centos7的基础配置,安装方式为最小化安装。 一. 1.0 首先设置Vmware,选择编辑(Edit),设置虚拟网络编辑器 此处要选择VM net8 NAT模式,使用NAT模式的好处是方便虚拟机联网,自己手动设置静态IP。 具体操作流程:点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 h...原创 2019-02-27 16:43:07 · 397 阅读 · 0 评论