hadoop
文章平均质量分 78
hadoop
小朋友,你是否有很多问号?
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Mac安装hadoop
mac 安装hadoop原创 2025-09-12 15:20:23 · 391 阅读 · 0 评论 -
日志埋点
原创 2018-11-17 15:37:34 · 2684 阅读 · 0 评论 -
cdh 下载地址
http://archive-primary.cloudera.com/cdh5/ http://archive-primary.cloudera.com/cm5/cm/5/原创 2016-09-20 10:27:19 · 704 阅读 · 0 评论 -
hadoop基本概念
HADOOP核心组件 1. HADOOP是apache旗下的一套开源软件平台 2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理 3. HADOOP的核心组件有 A. HDFS(分布式文件系统) B. YARN(运算资源调度系统) C. MAPREDUCE(分布式运算编程框架)原创 2017-02-08 16:55:07 · 526 阅读 · 0 评论 -
elasticserch +kibana+marvel+sense
在安装插件的过程中,尤其是安装Marvel插件遇到了很多问题,要下载license、Marvel-agent,又要下载安装Kibana 版本需求 Java 7 or later Elasticsearch 2.4.2 Kibana 4.5 Elasticsearch License 2.4.2 plugin 系统版本是:CentOS release 6.转载 2016-12-29 10:16:59 · 1778 阅读 · 0 评论 -
hadoop元数据管理机制
客户端经常性的会有查询元数据的请求和更新元数据的请求 namenode对数据的管理采用了三种存储形式: 内存元数据(NameSystem) 磁盘元数据镜像文件(fsimage) 数据操作日志文件(可通过日志运算出元数据edits) secondarynamenode主要对image镜像文件的管理 1.当有元数据有更新请求的时候,先记录操作日志edits, 2.原创 2016-09-08 20:44:32 · 2160 阅读 · 0 评论 -
hadoop wordcount运行过程
1.分布式的运算程序往往分成至少两个阶段 2.第一个阶段的task并发实例各司其职各自为政互不相干,完全并行(map阶段maptask) 3.第二个阶段的taks并发实例互不相干,但是他们的数据依赖上一个阶段的task并发实例的输出(reducereducetask) 4.MAPREDUCE编程模型只能包含一个map阶段和一个reduce阶段,如果用户的业务逻辑非常复杂,那只能来多个原创 2016-09-08 20:41:15 · 640 阅读 · 0 评论 -
HDFS写数据过程
1、客户端向namenode请求上传文件,namenode在元数据中查找是否满足上传条件(路径是否存在,文件是否存在等) 2、元数据系统返回信息告知客户端,可以上传文件 3、RPC请求上传第一个block(0-128M),请求返回datanode 4、元数据系统向客户端返回若干个datanode(因为一块block有好几个副本), 选择datanode考虑因素为datanode的空原创 2016-09-08 20:39:39 · 551 阅读 · 0 评论 -
secondaryNameNode元数据管理机制
客户端经常性的会有 查询元数据的请求 和更新元数据的请求 namenode对数据的管理采用了三种存储形式: 内存元数据(NameSystem) 磁盘元数据镜像文件(fsimage) 数据操作日志文件(可通过日志运算出元数据edits) secondary namenode 主要对image镜像文件的管理 1.当有元数据有更新请求的时候,首先会更新到内存当中, 2.同时会记录操原创 2016-09-08 20:10:07 · 796 阅读 · 0 评论 -
hadoop指令
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack start-dfs.sh 启动Hado原创 2016-09-08 20:09:56 · 443 阅读 · 0 评论 -
MapReduce的shuffle过程
maptask通过inputFormat的读取文件,默认读取文件时TextInputFormat, 读文件用的是成员变量RecordReader的 read()方法,read方法读取原始的文件, 一次读一行,返回k v 将结果交给自定义的Mapper{},调用map方法,进行处理, 用context.write方法输出,交给outPutCollector写到环形缓冲区默认大小100M, 默原创 2016-09-08 20:42:39 · 529 阅读 · 0 评论
分享