
Hadoop
贫僧洗头爱飘柔
这个作者很懒,什么都没留下…
展开
-
HDFS详解
******HDFS基本概念篇******1.HDFS前言l 设计思想分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;l 在大数据系统中作用:为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务l 重点概念:文件切块,副本存放,元数据2.HDFS的概念和特性首先,它是一个文件系统,用于存储文件,通过...原创 2018-04-14 12:27:40 · 563 阅读 · 0 评论 -
MapReduce详解(上)
首先从左到右,数据从HDFS中流入,其中inputsplit为大数据源,到了map有一个map的接口,把大数据源进行切割成一个一个的map,这一步需要我们来进行开发的,到后面的reduce也是,其他的为框架帮我们完成,会把数据填充到内存,即buffer in memory,默认为100M,阈值为80M,当数据溢出时,进行封闭,将数据从内存写入到磁盘中,而且中是按照key进行排序,概要MapRedu...原创 2018-04-13 23:24:51 · 1017 阅读 · 0 评论 -
MapReduce实践
流量统计相关需求原始数据1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 i02.c.aliimg.com 24 27 2481 24681 2001363157995052 13826544101 5C-0E-8B-C7-F1-E0:CMCC 120.197.40.4 4 0 264 0 20013631...原创 2018-04-14 09:58:28 · 839 阅读 · 1 评论 -
HADOOP高可用机制
Hadoop的HA机制前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制1.1 HA的运作机制(1)hadoop-HA集群运作机制介绍所谓HA,即高可用(7*24小时不中断服务)实现高可用最关键的是消除单点故障hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA(2)HDFS的HA机制详解通过双namenode消除单点故障双namenode...转载 2018-04-19 20:44:14 · 575 阅读 · 0 评论 -
大数据面试、笔试题收集
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?题目描述:给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url? 分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。1MB = 2^20 = 10^6 = 100W1GB = 2^30 = 10^9 =...原创 2018-05-14 22:29:41 · 995 阅读 · 0 评论