
Hadoop
「已注销」
这个作者很懒,什么都没留下…
展开
-
Hadoop 入门
1 大数据概率大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息增长。主要解决海量的存储和海量数据的分析计算问题。1.1 大数据的特点Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)1.2 大数据应用场景物流仓储:大数据分析系...原创 2019-09-07 00:54:15 · 228 阅读 · 0 评论 -
Hadoop 之 HDFS
1 HDFS 概述1.1 HDFS 产出背景及定义随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文...原创 2019-09-07 00:54:59 · 205 阅读 · 0 评论 -
Hadoop 之 MapReduce
1 MapReduce 概述MapReduce 是一个分布式运算程序的编程框架,是用户开发基于 Hadoop 的数据分析应用的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop 集群上。1.1 MapReduce 优缺点优点:MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程...原创 2019-09-07 01:00:05 · 233 阅读 · 0 评论 -
Hadoop 之 数据压缩
1 概述[外链图片转存失败(img-XyMR77Wi-1567789334351)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\1567781367210.png)]压缩策略和原则[外链图片转存失败(img-1fqKxXjg-1567789334352)(C:\Users\Administrator\App...原创 2019-09-07 01:04:56 · 138 阅读 · 0 评论 -
Hadoop 之 Yarn
1 概述Yarn 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序。2 Yarn 基本架构3 Yarn 工作机制工作机制详解:1)MR 程序提交到客户端所在的节点。2)YarnRunner 向 ResourceManager 申请一个 Application。3)RM 将该...原创 2019-09-07 01:21:20 · 283 阅读 · 0 评论 -
Hadoop 企业优化
1 MapReduce 跑的慢的原因2 MapReduce 优化方法MapReduce优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、IO传输、数据倾斜问题和常用的调优参数。2.1 数据输入2.2 Map 阶段2.3 Reduce 阶段2.4 IO 传输2.5 数据倾斜问题2.6 常用的调优参数2.6.1 资源相关参数以下参数是在用户自己的MR应...原创 2019-09-07 01:45:16 · 174 阅读 · 0 评论 -
Hadoop HA
HA 概述所谓HA(High Available),即高可用(7*24小时不中断服务)实现高可用最关键的策略是消除单点故障,HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HAHadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)NameNode 主要在以下两个方面影响 HDFS 集群NameNode 机器发生意...原创 2019-09-08 22:43:04 · 157 阅读 · 0 评论 -
ZooKeeper 入门
1 ZooKeeper入门1.1 概述ZooKeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。1.2 特点ZooKeeper:一个领导者(Leader),多个跟随者(Follower)组成的集群。集群中只要有半数以上节点存活,ZooKeeper 集群就能正常服务。全局数据一致:每个 Server 保存一份相同的数据副本,Client 无论连接到哪个 ...原创 2019-09-08 22:44:45 · 237 阅读 · 0 评论