
Hadoop
啊策策
通吃java, 大数据技术栈,横跨开发测试整条业务线.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Yarn资源调度 12
1. yarn调度流程yarn的主要作用:管理任务,调度资源resourceManager:主节点,主要用于接收客户端的请求,分配资源nodeManager:从节点,主要是用于执行我们的任务,说白了就是提供cpu和内存的ApplicationMaster:主要用于申请资源,分配资源,分配任务,任务生命周期的管理container:资源分配的单位,所有的任务执行,都在container...原创 2019-03-21 21:02:11 · 275 阅读 · 0 评论 -
MapReduce参数调优 11
1. 资源相关参数1.1 以下调整参数都在mapred-site.xml这个配置文件当中有以下参数是在用户自己的mr应用程序中配置就可以生效mapreduce.map.memory.mb: 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则会被强制杀死。mapreduce.reduce.memory.mb: 一个Reduc...原创 2019-03-21 19:59:21 · 508 阅读 · 0 评论 -
MapReduce高阶训练 10
1. 社交粉丝数据分析1.1 逻辑分析以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,...原创 2019-03-21 19:38:55 · 312 阅读 · 0 评论 -
MapReduce运行机制详解 09
1. Map的运行机制以及map任务的并行度1.1 图解1.2 详解整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map ta...原创 2019-03-21 09:58:05 · 666 阅读 · 0 评论 -
MapReduce习题练习 08
1. 统计求和1.1 需求统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和1.2 分析以手机号码作为key值,上行流量,下行流量,上行总流量,下行总流量四个字段作为value值,然后以这个key,和value作为map阶段的输出,reduce阶段的输入1.3 代码1.3.1 自定义map的输出value对象FlowBeanpublic class FlowB...原创 2019-03-20 20:21:19 · 2804 阅读 · 2 评论 -
分布式计算框架MapReduce入门、MR程序编写wordCount 06
1. 理解MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没...原创 2019-03-20 19:09:51 · 355 阅读 · 0 评论 -
MapReduce增强 07
1. 分区以及reduceTask的个数1.1 概念分区:主要的作用就是决定我们数据去到哪一个reduceTask里面去物以类聚,人以群分。相同key的数据发送到同一个reduce里面去csv格式的数据可以直接被excel加载。excel是一个很强大的数据库。excel里面有很多的函数,日期,时间,金额,求最大值,求最小值,平均值比较早的时候,很多做数据统计的人都是使用的excel。e...原创 2019-03-20 19:51:11 · 238 阅读 · 1 评论 -
分布式文件存储系统HDFS 05
1.分布式文件系统详细介绍在hadoop当中,分布式文件系统(HDFS),对文件系统有一个抽象,HDFS属于当中的一个实现类,也就是说分布式文件系统类似于一个接口,定义了标准,下面有很多的实现类,其中HDFS是一个子实现类而已,但是现在很多人都只知道一种就是HDFS的实现,并没有了解过其他的实现类,其实分布式文件系统的实现有很多种,具体详细参见hadoop权威指南第三版第59页2. HDF...原创 2019-03-19 21:31:46 · 275 阅读 · 0 评论 -
hadoop架构知识 04
1.hadoop的架构模型:1.x架构模型: hdfs:分布式文件存储系统 namenode:主节点,管理元数据信息,接收客户端的请求 元数据信息:描述数据的数据 datanode:从节点 存储数据 mapreduce:分布式的文件计算系统 JobTracker: 主节点,接收客户端的计算任务请求,分配任务 taskTracker:从节点,执行jobtracker...原创 2019-03-19 20:54:14 · 240 阅读 · 0 评论 -
初始大数据-虚拟机配置hadoop伪分布式_02
1. linux集群情况1. window 宿主192.168.137.188 node01.hadoop.com node01 192.168.137.100 00:50:56:3D:7D:CC root 123456 node02.hadoop.com node02 192.168.137.110 00:50:56:3D:2F:CC root 123456 node...原创 2019-03-19 09:18:41 · 310 阅读 · 0 评论 -
配置虚拟机 01
三台虚拟机创建并联网第一种方式: 通过iso镜像文件进行安装创建一台虚拟机出来 为我们的虚拟机挂载操作系统开启虚拟机,安装虚拟机操作系统配置虚拟机连接网络修改linux的mac地址修改mac地址配置文件vim /etc/udev/rules.d/70-persistent-net.rules修改网络配置v...原创 2019-03-11 17:07:44 · 296 阅读 · 0 评论