Hadoop
hadoop相关技术专题
fql123455
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce应用程序的其它运行方式
ff原创 2019-08-16 19:55:48 · 187 阅读 · 0 评论 -
数据清洗
1.什么是数据清洗数据清洗指将原始数据处理成有价值的数据的过程,就称为数据清洗。这是由大数据的低价值密度的特点决定的。2.大数据开发的基本流程采集数据(flume、logstash)先保存到MQ(Kafka) 中将MQ中的暂存数据存放到HDFS中保存。数据清洗(低价值密度的数据处理),存放到HDFS。算法干预(MapReduce),计算结果保存到HDFS或者HBase。计算结果...原创 2019-08-19 22:00:25 · 529 阅读 · 0 评论 -
Shuffle原理剖析
开局一张图1.什么是Shuffle?Shuffle,是指对Map输出结果进行分区、排序、合并等处理并交给Reduce 的过程。分为Map端的操作和Reduce端的操作。2.Shuffle过程1.Map端的ShuffleMap的输出结果首先被缓存到内存,当缓存区容量达到80%(缓冲区默认100MB),就启动溢写操作。当启动溢写操作时,首先需要把缓存中的数据进行分区,然后对每个分区的数据进行...原创 2019-08-17 17:24:32 · 856 阅读 · 0 评论 -
MapReduce的应用程序开发
1.环境搭建新建Maven工程,导入相关依赖<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>2.6.0</version></dependency>...原创 2019-08-16 19:35:36 · 652 阅读 · 0 评论 -
YARN与MapReduce
1.什么是YARNApache Hadoop YARN(Yet Another Resource Negotiator),是一种资源协调者,是一种新的Hadoop资源管理器,它是一个通用资源管理系统,可以为上层应用提供统一的资源管理和调度,它的引入为集群利用率、资源统一管理和数据共享等方面带来了巨大好处。2.YARN的架构ResourcesManager: 是在系统中的所有应用程序直接仲裁...原创 2019-08-16 12:48:24 · 359 阅读 · 0 评论 -
hBase与MapReduce的集成
1.二者为什么要集成HBase是一个基于Hadoop的数据库,它可靠、分布式适合结构化大数据的存储。其当然要与分布式的计算框架MapReduce相结合。2.集成操作1.创建Maven项目导入相关依赖 <!--mapreduce + hbase--> <dependency> <groupId>org.apache.hadoop...原创 2019-08-25 17:05:38 · 402 阅读 · 0 评论 -
HDFS 的架构
1.什么是HDFSHDFS(Hadoop Distributed File System):分布式系统,类似于其他的分布式文件系统,HDFS支持 高度容错,可以部署在廉价的硬件设备上,特别适宜大型的数据集的分布式存储。2.HDFS的架构HDFS采⽤用master/slave架构。⼀一个HDFS集群是由⼀一个Namenode和⼀一定数⽬目的Datanodes组成。Namenode是一个...原创 2019-08-13 17:31:12 · 1797 阅读 · 0 评论 -
HDFS元数据的持久化操作
1.什么是元数据元数据是存储HDFS重要信息的元素按类型可分为文件、目录自身的属性信息,例如文件名、目录名、修改信息等文件记录的信息的存储相关的信息,例如存储块信息、分块情况、副本个数等。3.记录HDFS和DataNode的信息,用于DataNode的管理。按形式可分为:内存元数据和元数据文件两种,分别存储在内存和磁盘。2.为什么需要元数据的持久化元数据重要,且使用内存存储...原创 2019-08-13 21:47:14 · 4006 阅读 · 0 评论 -
Hadoop
一.概述1.大数据概念大数据(big data) 是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策能力、洞察发现能力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特点Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)Veravity(真实性)2.Hadoop是什么...原创 2019-08-13 20:10:17 · 203 阅读 · 0 评论
分享