
hadoop
文章平均质量分 59
大神,快来碗里
专注于Java相关技术
展开
-
hadoop(1) HDFS的概念、原理及基本操作
1. HDFS的基本概念和特性设计思想——分而治之:将大文件、大批量文件分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,…)提供数据存储服务。1.1 HDFS的概念首先,它是一个文件系统,用于存储文件,通过统一的命名空间–目录树来定位文件;其次,它是分布式的,有很多服务器联合起来...原创 2019-05-06 22:19:45 · 10751 阅读 · 0 评论 -
hadoop(2) MapReduce原理解析
1. 概述Mapreduce是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架;Mapreduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个hadoop集群上;1.1 MapReduce的诞生背景背景原因:(1) 海量数据在单机上处理因为硬件资源限制,无法胜任;(2) 而一旦将单机版程序扩展到集群来...原创 2019-05-06 22:20:31 · 11156 阅读 · 0 评论 -
hadoop(3) Yarn原理解析
1. 概述Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台;而MapReduce等运算程序则相当运行于操作系统之上的应用程序。2. YARN的重要概念1、yarn并不清楚用户提交的程序的运行机制;2、yarn只提供运算资源的调度(用户程序向yarn申请资源,yarn就负责分配资源);3、yarn中的主管角色叫ResourceManager;4...原创 2019-05-06 22:21:47 · 10837 阅读 · 0 评论 -
Springboot2(36)集成hadoop
源码地址springboot2教程系列添加依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.7.3</version>原创 2019-01-28 17:14:53 · 28547 阅读 · 0 评论 -
大数据(1) 大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问
一、写在前面上篇文章我们已经初步给大家解释了Hadoop HDFS的整体架构原理,相信大家都有了一定的认识和了解。如果没看过上篇文章的同学可以看一下:《兄弟,用大白话告诉你小白都能听懂的Hadoop架构原理》这篇文章。本文我们来看看,如果大量客户端对NameNode发起高并发(比如每秒上千次)访问来修改元数据,此时NameNode该如何抗住?二、问题源起我们先来分析一下,高并发请求Nam...原创 2019-05-03 20:10:10 · 20157 阅读 · 0 评论 -
大数据(3) Hadoop如何将TB级大文件的上传性能优化上百倍
一、写在前面上一篇文章,我们聊了一下Hadoop中的NameNode里的edits log写机制。主要分析了edits log写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写edits log的吞吐量,从而支持高并发的访问。如果没看那篇文章的同学,可以回看一下:大规模集群下Hadoop NameNode如何承载每秒上千次的高并发访问。这篇文章,我们来看看,...原创 2019-05-03 20:14:52 · 20274 阅读 · 1 评论