
hadoop
周雄雄
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop(wordcount案例实操)
需求:在给定的文本文件中统计输出每一个单词出现的总次数输入数据zhou zhi xiongduan xing yuzhou xiong xiong期望输出数据zhou 2zhi 1xiong 3duan 1xing 1yu 1需求分析按照MapReduce编程规范,分别编写Mapper,Reducer,DriverMapper将MapT...原创 2020-03-13 14:03:24 · 1529 阅读 · 0 评论 -
hadoop(MapReduce)
MapReduce定义MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。我们的任务就是编写业务的逻辑代码MapReduce优缺点优点:MapReduce 易于编程它简单的实现一些接口,就可以...原创 2020-03-13 12:39:36 · 168 阅读 · 0 评论 -
hadoop(DataNode)
DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件:一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数...原创 2020-03-12 11:02:52 · 599 阅读 · 0 评论 -
hadoop(NameNode故障处理以及多目录设置)
NameNode故障后,可以采用如下两种方法恢复数据方法一将SecondaryNameNode中数据拷贝到NameNode存储数据的目录kill -9 NameNode进程删除NameNode存储的数据(/opt/module/hadoop-2.7.2/data/tmp/dfs/name)[redhat@hadoop102 name]$ rm -rf /opt/module/h...原创 2020-03-11 15:30:37 · 849 阅读 · 0 评论 -
hadoop(NameNode和SecondaryNameNode)
NN和2NN工作机制思考: NameNode中的元数据是存储在哪里的?首先,我们做个假设:如果存储在NameNode的磁盘中,因为经常需要进行随机访问,还有相应客户请求,必然是效率过低;因此,元数据需要存放在内存中,但是如果只存放在内存中,一旦断电,内存中的元数据就会丢失,整个集群就挂了。为了解决这个问题,Hadoop中就产生了在磁盘中备份元数据的FSImage。但是,这种解决方案又带来了...原创 2020-03-11 12:25:46 · 436 阅读 · 0 评论 -
hadoop(HDFS的数据流)
HDFS写数据流程开始上传文件时,客户端通过Distributed FileSystem这个抽象的HDFS对象向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。NameNode返回是否可以上传。客户端将文件逻辑的根据块大小进行划分,然后请求NameNode第一个Block上传到哪几个DataNode服务器上。NameNode返回一个清单,清单上...原创 2020-03-11 11:49:12 · 236 阅读 · 0 评论 -
hadoop(API操作)
HDFS文件上传(测试参数优先级)package com.redhat.hafsclient;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.junit.After;import org.jun...原创 2020-03-10 11:01:48 · 416 阅读 · 0 评论 -
hadoop(客户端环境准备)
1.根据自己电脑的操作系统环境拷贝对应编译后的hadoop.jar包到非中文路径例如:D:\Develop\hadoop-2.7.22.配置HADOOP_HOME环境变量3.配置Path环境变量4.在idea中创建一个Maven工程HdfsClientDemp5.导入相应的依赖坐标+日志添加<dependencies> <dependency> ...原创 2020-03-10 09:12:17 · 285 阅读 · 0 评论 -
hadoop(HDFS的shell操作)
基本语法hadoop fs + 具体命令 或者 hdfs dfs + 具体命令这两条基本语法底层是一样的,只是名字不一样罢了命令集合常用命令实操启动Hadoop集群[redhat@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh[redhat@hadoop102 hadoop-2.7.2]$ sbin/start-yarn.sh-h...原创 2020-03-09 16:21:57 · 293 阅读 · 0 评论 -
hadoop(HDFS概述)
HDFS产生背景及定义HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS定义HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来...原创 2020-03-09 15:40:34 · 210 阅读 · 0 评论 -
hadoop(hadoop是什么)
Hadoop是什么Hadoop是Apache基金会开发的分布式系统基础架构Hadoop主要被用来解决海量数据的存储和海量数据的分析计算广义上来说,Hadoop通常是指一个更广泛的概念----Hadoop生态圈Hadoop发展历史Lucene框架是Doug Cutting开创的开源软件,用Java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括...原创 2020-03-08 11:46:11 · 2130 阅读 · 0 评论 -
hadoop(大数据简介)
大数据概念:概念:大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。主要解决:海量数据的存储和海量数据的分析计算问题。大数据特点(4V)Volume(大量)截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类总共说过的...原创 2020-03-08 10:31:36 · 365 阅读 · 0 评论