
hadoop
文章平均质量分 54
南国小豆a
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
linux-hadoop集群搭建
A、系统: centos7.2 hadoop-2.6.0-cdh5.15.1 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz B、角色分配(修改/etc/hostname,/etc/hosts):192....原创 2018-12-13 10:47:11 · 186 阅读 · 0 评论 -
HDFS介绍(十三)Hadoop Yarn资源管理——核心组件详解
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79920728 相关链接: Hadoop Yarn资源管理——Hadoop1.0与Hadoop2.0对比 YARN是Hadoop 2.0的一个通用的资源管理系统,可为上层应用提供统一的资源管理和调度。 在整个资源管理框架中ResourceManager为Mast...转载 2018-12-15 23:58:46 · 1238 阅读 · 0 评论 -
HDFS介绍(十四) Hadoop Yarn工作机制(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79921723 addition: yarn的web interface:http://192.168.2.199:8088/clusteryarn default configure:http://hadoop.apache.org/docs/stable/had...转载 2018-12-15 23:59:28 · 138 阅读 · 0 评论 -
Hadoop之Unable to load native-hadoop library问题解决
在安装好Hadoop后,每次输入命令都会出现下面警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableStopping namenodes ...提示hadoop不能加载本地...原创 2018-12-18 21:57:38 · 1220 阅读 · 0 评论 -
Hadoop开启关闭调试信息
开启:export HADOOP_ROOT_LOGGER=DEBUG,console关闭:export HADOOP_ROOT_LOGGER=INFO,console实时查看和修改Hadoop日志级别 Hadoop的日志界面可以通过Hadoop命令和Web界面来修改。 Hadoop命令格式:hadoop daemonlog -getlevel <host:p...原创 2018-12-15 23:59:37 · 491 阅读 · 0 评论 -
hadoop启动过程(三)安全模式SafeMode
启动完datanode之后就进入安全模式 安全模式SafeMode 等待DataNodes向他发送block report 启动时total blocks/datanodes blocks = 99.9% 此时安全模式才会退出 在安全模式可进行操作 可查看文件系统的文件 不可改变文件系统的命明空间 ...原创 2018-12-15 23:58:34 · 545 阅读 · 0 评论 -
Hadoop运行模式
1.单机模式(standalone) 在单机模式(standalone)适用于学习与测试环境,在单机模式中不会存在守护进程,所有东西都运行在一个 JVM 上,Hadoop会完全运行在本地。 2.伪分布模式(Pseudo-Distributed Mode) 伪分布式(Pseudo)适用于学习与测试环境,在这个模式中,所有守护进程都在同一台机器上运行。通常用来用作实验、开发...原创 2018-12-15 23:58:03 · 217 阅读 · 0 评论 -
HDFS文件分块信息
[root@bigdata01 ~]# hdfs fsck /mr/analysis_sougoulog/data/sogou_log.txt.flt -blocks -files -locations -racks Connecting to namenode via http://bigdata000:50070/fsck?ugi=root&bl...原创 2018-12-15 23:58:13 · 806 阅读 · 0 评论 -
HDFS元数据管理机制(转)
转自:https://www.cnblogs.com/jifengblog/p/9307791.html HDFS元数据管理机制 元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改 ·· 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副...原创 2018-12-15 23:59:20 · 263 阅读 · 0 评论 -
hadoop基本代码(一) word count
开篇语:记于映像笔记,现搬运至csdn。算是大数据的第一份代码,这里做详尽解析,有什么有问题请指出。thx MapReduce:在开始看WordCount的代码之前,先简要了解下什么是MapReduce。HDFS和MapReduce是Hadoop的两个重要核心,其中MR是Hadoop的分布式计算模型。MapReduce主要分为两步Map步和Reduce步,引用网上流传很广的一个...原创 2018-12-18 20:27:54 · 494 阅读 · 1 评论 -
HDFS介绍(七)hadoop block数据块(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/78713597 block数据块是HDFS文件系统基本的存储单位block(块)128M 小于一个块的文件,不会占据整个块的空间 block数据块大小设置较大的原因(减少花销):1)减少文件寻址时间2)减少管理块的数据开销,每个块都需要在NameNode上有...转载 2018-12-18 21:56:32 · 457 阅读 · 0 评论 -
HDFS介绍(三)Hadoop SecondNameNode详解
详见:hadoop启动过程(二)secondNameNode原创 2018-12-22 22:15:00 · 775 阅读 · 0 评论 -
HDFS介绍(二)Hadoop DataNode详解(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79717525 一个集群可能包含上千个DataNode节点(最多4000个????????没验证),这些DataNode定时和NameNode进行通信,接受NameNode的指令为了减轻NameNode的负担,NameNode上并不永久保存哪个DataNode上有哪些数据块的信息...转载 2018-12-15 23:59:11 · 565 阅读 · 0 评论 -
HDFS介绍(十二)HDFS文件读写操作(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79717769 HDFS读文件 客户端首先调用FileSystem对象的open方法打开文件,其实获取的是一个DistributedFileSystem的实例。 DistributedFileSystem(类的实例)通过调用RPC(远程过程调用)向namenod...转载 2018-12-15 23:58:57 · 493 阅读 · 0 评论 -
HDFS介绍(一)Hadoop NameNode详解(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/78713634 NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了整个HDFS可存储的文件数受限于NameNode的内存大小这个关键的元数据结构设计得很紧凑,因而一个有4G内存的...转载 2018-12-15 23:57:47 · 1210 阅读 · 0 评论 -
搜狗日志分析
Mapreduce代码:https://github.com/pickLXJ/analysisSogou.gitLog日志:https://pan.baidu.com/s/112P_hR9FlQq7htyTVjxgwg 一、日志格式搜狗格式查询https://www.sogou.com/labs/resource/q.php原始数据20111230000418 e6...原创 2018-12-13 23:09:14 · 1314 阅读 · 1 评论 -
hadoop启动过程(一) NameNode
一、第一次启动 NameNode 内存 本地磁盘 fsimage edits 格式化HDFS,目的是审查隔行fsimage format fsimage start namenode read fsimage sta...原创 2018-12-14 13:19:08 · 692 阅读 · 0 评论 -
hadoop启动过程(二)secondNameNode
作用:定期将namenode的fsimage和edits合并(数据或者操作不多的时候可以关闭 ),可加速hdfs启动(如果edits很多的话,开启会很难) SecondNameNode:它会定期的和namenode就行通信来完成整个的备份操作(????更新fsimage操作)。具体的操作如下:SecondaryNameNode的工作过程:1. SecondaryNam...原创 2018-12-14 13:20:05 · 1097 阅读 · 2 评论 -
hadoop心跳机制(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/78713523 主节点和从节点之间的通信是通过心跳机制(心跳实际上是一个RPC函数)实现的所谓“心跳”是一种形象化描述,指的是持续的按照一定频率在运行,类似于心脏在永无休止的跳动。 心跳机制: 1) master启动的时候,会开启一个RPC server2) ...转载 2018-12-14 13:20:50 · 923 阅读 · 1 评论 -
windows hadoop编程环境搭建 权限问题
执行代码时候报错permission denied: user=LXUJIE, access=WRITE, inode="/tmp/Wtest.txt":root:supergroup:-rw-r--r-- 1.sudo -u hdfs hadoop fs -mkdir /user/root 我们可以以hdfs的身份对文件进行操作 2.问题:Wind...原创 2018-12-14 13:22:06 · 476 阅读 · 2 评论 -
hadoop开发环境搭建(二)windows远程
A、实现目的: 1.自己更习惯于windows下的代码开发,各种资源方面的比较方便。2.在windows下开发代码,然后再放入linux下跑或者直接windows跑,兼容性很强,系统不影响开发。3.知道有这种方法,尝试一下 B、所需文件: 软件 下载地址 备注 eclipse-jee ...原创 2018-12-14 13:23:37 · 212 阅读 · 0 评论 -
HDFS介绍(四)HDFS副本存放策略(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/78713467 数据分块存储和副本的存放,是保证可靠性和高性能的关键将每个文件的数据进行分块存储,每一个数据块又保存有多个副本。这些数据块副本分布在不同的机器节点上 设置备份数 方法一:配置文件hdfs-site.xml <proper...转载 2018-12-14 13:24:18 · 719 阅读 · 0 评论 -
HDFS介绍(零) HDFS分布式文件系统简介(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79712524 HDFS(Hadoop Distributed File System)Hadoop 分布式文件系统 基于流数据模式访问 就是可以字节序列化的数据,java.io.Serializable接口 分布式文件系统处理的数据必须是流数据,可以写I...转载 2018-12-14 13:28:05 · 236 阅读 · 0 评论 -
hadoop显示只有一个datanode启动
1.datanode无法启动:DataNode(dfs/data/current/VERSION)的clusterID与NameNode(dfs/name/current/VERSION)的不一致,datanode无法启动 解决方法:将NameNode的clusterID复制到DataNode,顺便检查下各个storageID、datanodeUuid是不是不一样的(如果一样需要修改)...原创 2018-12-14 13:41:29 · 5250 阅读 · 0 评论 -
HDFS介绍(九) Hadoop RPC简介(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79768375 RPC(Remote Procedure Call)————远程过程调用协议 Hadoop RPC在Hadoop中应用非常广泛,Client、DataNode、NameNode之间的通讯全依赖于它 (1)它允许一台计算机程序远程调用另外一台计算机的子程...转载 2018-12-14 13:42:45 · 238 阅读 · 0 评论 -
HDFS介绍(十) Hadoop MapReduce简介(转)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79896695 MapReduce分布式并行计算框架是一种可用于数据处理的编程模型,可运行由各种语言编写的MapReduce程序:java、Ruby、Python、R、C++等语言。它用于处理超大规模数据的计算,同时具有可并行计算的特性,因此可以将大规模的数据分析任务交给任...转载 2018-12-14 13:44:47 · 337 阅读 · 0 评论 -
HDFS介绍(十一)Hadoop作业运行机制(转)(没怎么看懂)
转自:https://blog.youkuaiyun.com/lb812913059/article/details/79897863 hadoop会为每个分片构建一个map任务(是每个分片split都有一个任务,而不是block),map和reduce每个阶段都以键值对作为输入和输出。键是某一行起始位置相对于文件起始位置的偏移量(行偏移量)。 为什么要将MapReduce计算转移到存储有...转载 2018-12-18 22:03:51 · 385 阅读 · 0 评论