
Hadoop
文章平均质量分 77
Even710
持之以恒
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
winodws使用Hadoop
windows java使用Hadoop需要的jar包在hadoop目录/share/hadoop/中,有common、hdfs文件夹等hadoop-common-2.8.4.jarhadoop-hdfs-2.8.4.jar及它们的依赖包,依赖包在各自目录的lib中。如果报下面错误:Cannot load filesystem: java.util.ServiceConfigurati...原创 2018-11-21 17:31:05 · 261 阅读 · 0 评论 -
Hive全方面攻略
文章目录概述Hive优缺点Hive架构安装部署Hive测试操作数据概述Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集。可以将结构投影到已存储的数据中。提供了命令行工具和JDBC驱动程序以将用户连接到Hive。简单点来说,hive是为了替代hadoop的mapreduce。从数据计算的角度来说:mapreduce分布式计算难度大,而hi...原创 2019-01-11 15:56:55 · 853 阅读 · 0 评论 -
MapReduce数据压缩
MapReduce数据压缩Hadoop三个阶段Hadoop数据压缩压缩的基本原则MR支持的压缩编码编码/解码器压缩性能使用方式map端输出压缩reduce端输出压缩Hadoop三个阶段1)分布式文件系统HDFS用于存储宏大数据量文件。2)分布式编程框架MapReduce用于分布式计算海量数据。3)yarn框架分布式调度平台,用于为MapReducer合理分配资源。Hadoop数据压...原创 2019-01-10 15:35:45 · 724 阅读 · 0 评论 -
MapTask运行机制
MapTask并行度前文提到MapReduce程序包含两个阶段——Map阶段和Reduce。在提交一个Job任务时,在Map阶段会根据提交的任务,来决定需要开启多少个MapTask来执行。split表示针对每一个文件的单独切片,即,每一个split,会分配到一个maptask进行处理,而默认情况下,split的大小和block的大小一致,即128M,有多少个block,就需要开启多少个Map...原创 2018-12-28 11:21:43 · 1220 阅读 · 0 评论 -
RPC框架与MR框架
手写RPC框架客户端与NameNode通信的RPC原理,本篇手写RPC框架模拟客户端获取指定路径的元数据。hdfs读写文件机制:https://blog.youkuaiyun.com/weixin_37581297/article/details/84633121第一步,pom.xml<dependency> <groupId>org.apache.hadoop...原创 2018-12-11 13:48:07 · 284 阅读 · 0 评论 -
MapReduce编程及Yarn集群
MapReduce是Hadoop的分布式运算组件,是Hadoop数据分析应用的核发框架,主要分为两部分,Map和Reduce。Map阶段把数据拆分处理输出,Reduce把Map阶段输出的数据整合处理。MR程序分成三阶段:Map阶段,Reduce阶段,Driver阶段。...原创 2018-12-27 11:38:37 · 518 阅读 · 0 评论 -
NameNode和DataNode工作机制
文章目录NameNode工作机制NameNode工作机制NameNode启动时,会把fsimage和edits 001加载到内存,并对fsimage进行合并,此时的fsimage是最新的镜像文件。client执行增删改操作时,会使元数据发生变化,新建一个edits 002记录这些变化,此时的fsimage还是只有edits 001的记录。当edits 002日志文件满了或者是触发了ch...原创 2018-12-04 09:06:28 · 730 阅读 · 1 评论 -
图解HDFS读写文件机制
HDFS读写文件HDFS写文件过程HDFS写文件过程关键点:hadoop2.x版本默认块大小为128M,所以预处理文件时,对200M的文件分块就是分成128M和72M。第二步前,namenode需要根据client传递过来的消息来判断是否可以写文件,判断依据有是否存在目录,是否已存在文件等。namenode选取datanode时可以遵循机架感知策略来选择机器。默认情况没有开启,是随机...原创 2018-11-29 16:16:44 · 521 阅读 · 0 评论 -
Hadoop集群配置
Hadoop集群准备工具:虚拟机:VMware Workstation 12jdk:jdk-8u141-linux-x64.tar.gz服务器ISO:CentOS-7.isohadoop:hadoop-2.8.4.tar.gzssh工具:MobaXtermVMWare虚拟机建三台CentOS,网络配置为NAT。hd-even-01 hd-even-02 hd-even-03关闭...原创 2018-11-20 09:12:19 · 443 阅读 · 0 评论 -
java实现操作Hadoop
java api for hadoop基本操作文件读写基本操作import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.junit.Test;import org.junit.jupiter.api.BeforeEach;import org.junit.jupiter.ap...原创 2018-11-22 22:13:48 · 1118 阅读 · 0 评论 -
HBase-MR操作
HBase擅长存储数据,但不擅长计算分析数据,但是它可以借用其他组件(mapreduce/spark),使用官方提供的hbase-api来实现计算分析数据功能。hbase-server.jar下面官方提供的一个Hbase操作MR的例子,此例子作用是对一张表的rowkey进行计数。解决HBase与MapReduce的依赖包问题。# 显示hbase需要的MapReduce Jar包hba...原创 2019-01-31 00:42:05 · 1471 阅读 · 1 评论