
hadoop
文章平均质量分 88
date-date
这个作者很懒,什么都没留下…
展开
-
hadoop windows安装
jdk 安装注意,jdk的安装目录一定不要带空格。如果带了空格,在后面的hadoop,spark安装时会导致他们不识别jdk环境。出现错误。当然,是否带空格对javac,java -version 这类命令没有影响。如果已经安装完成并且已经带了空格,那么C:\Program Files\Java\jdk1.8.0_121变成C:\Progra~1\Java\jdk1.8.0_121重开cmd,能够看见启动完成hadoop 安装hadoop 所有版本1.选..原创 2020-05-23 18:19:20 · 391 阅读 · 0 评论 -
hadoop 之hdfs知识详细整理
hadoop四大组件hdfs:分布式文件管理系统mapreduce:分布式的离线并行计算框架yarn:作业调度与集群资源管理系统comment:支持其他模块的工具模块HDFS(Hadoop Distributed File System)初步认知1.一个文件系统,可以用于存储文件,通过目录树定位文件2.由很多服务器共同实现文件存储功能hdfs 适合一次写入,多次读出的场景,且不支持文件修改,只能追加hdfs不适合用在:要求低时间延迟数据访问的应用,存储大量的小文.原创 2020-05-17 18:55:07 · 1500 阅读 · 0 评论 -
hadoop shuffle 过程理解
1.shuffle 基本认识何为shuffle:map端的数据传递给reduce端的流程。总体来说即为将map端的输出数据进行分区,排序,缓存然后分发给reduce端,然在reduce端进行归并,分组shulle 过程:官网图:流程简述:1.map task 根据分片信息从文件中读入数据2.maptask 调用map 方法进行业务逻辑运算3.一个maptask 对应一个缓存区,在缓存过程中会进行分区、排序、溢写、归并排序(多个溢写文件变成一个)4.如果存在combiner,原创 2020-05-15 11:20:50 · 1034 阅读 · 0 评论 -
yarn 工作机制原理浅析
Yarn 概述:一个资源调度平台,负责为运算程序提供服务器资源。其上可运行各类分布式运算程序。基本概念:1.yarn 并不清楚用户提交的程序的运行机制2.yarn 只负责运算资源的调度3.yarn 中的主管角色叫ResourceManager4.yarn 中具体提供运算资源的角色为NodeManageryarn 主要组件:ResourceManager、NodeManager。其中NodeManager中包含ApplicationMaster、containerRM主要作用.原创 2020-05-11 10:35:07 · 1196 阅读 · 0 评论 -
Flume基础入门
flume 核心概念Client:Client生产数据,运行在一个独立的线程agent:java 进程,运行在日志收集节点上(服务器节点),包含source、channel、sink三个核心组件source:从Client收集数据,可以处理各种类型各种格式的日志数据。数据封装到事件(event) 里被传递给channelchannel:缓存收集来的数据,保存由Source组件传递过来的Eventsink:从channel中取出数据,发送到目的地。目的地包括hdfs、logger、原创 2020-05-09 12:55:49 · 287 阅读 · 0 评论 -
Top N 问题(MR,Hive,Mysql)
前言:仅仅针对权威指南的吐槽,可跳过。说到这个问题实在是让人崩溃,开始看hadoop权威指南中文第四版中的9.2.4案例,求每年的最高温,要求年份按照升序,温度降序。针对组合键告诉我自定义分区只能保证每一个 reduce 接受一个年份的所有记录,而在一个分区之内,reduce 仍是通过建进行分组的分区,所以应该自定义分组。但是自定义分组前后结果配图竟然完全一样!?这是什么迷惑行为。此外,针对分区分组之后reduce 方法中直接使用context.write(key,NullWriteable.get()原创 2020-05-09 08:58:53 · 271 阅读 · 0 评论