
hadoop
文章平均质量分 70
北山璎珞
私はこのjianghuが好き
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HBase启动问题(一) org/apache/hadoop/hbase/master/ClusterSchema
org/apache/hadoop/hbase/master/ClusterSchema原创 2022-09-08 16:30:41 · 927 阅读 · 1 评论 -
MapReduce实战(附源码资料)
有两个海量日志文件存储在hdfs上, 其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);访问日志格式为:ip,time,url,假设登陆日志中上下线信息完整,且同一上下线时间段内使用的ip唯一,计算访问日志中独立user(独立user就是用户名不同,例如:user1与user2是独立用户)数量最多的前10个url,用MapReduce实现。 思路: 1.将用户登陆...原创 2020-04-23 21:56:00 · 522 阅读 · 0 评论 -
Hadoop数据压缩
一 目前支持 的 压缩编码 二 压缩方式选择 2.1 Gzip压缩 2.2 Bzip2压缩 2.3 Lzo压缩 2.4 Snappy压缩 三 压缩位置选择 压缩可以在MapReduce作用的任意阶段启用, 如下: 四 压缩参数配置 五 压缩 Demo 5.1 数据流的压缩和解压缩 package com.xu.mapreduce.compress; import jav...原创 2020-04-01 22:26:49 · 152 阅读 · 0 评论 -
MapReduce优缺点
一 优点 二 缺点原创 2020-05-31 15:16:06 · 605 阅读 · 0 评论 -
Hdfs 集群安全模式
原创 2020-05-31 15:15:53 · 230 阅读 · 0 评论 -
NameNode故障处理 及 多目录配置
一 故障处理 二 多目录配置原创 2020-05-31 23:26:49 · 196 阅读 · 0 评论 -
案例: Reduce 端实现 JOIN 和 Map端 实现JOIN
测试数据连接: 链接:https://pan.baidu.com/s/1TBHvrfO3dKBO8xOaeFXS3Q 提取码:4zug 1. 需求 Reduce 端实现 JOIN 假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算 select a.id,a.date,b.name,b.category_id,b.pri...原创 2020-05-31 23:27:12 · 272 阅读 · 0 评论 -
MapReduce运行机制详解
一 MapTask 工作机制 整个Map阶段流程大体如上图所示。 简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每个map task都有一个内存缓冲区,存储着map的输...原创 2020-05-31 15:17:00 · 359 阅读 · 0 评论 -
MapReduce规约Combiner
概念 每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做一次合并,以减少在 map 和 reduce 节点之间的数据传输量,以提高网络IO 性能,是 MapReduce 的一种优化手段之一 combiner 是 MR 程序中 Mapper 和 Reducer 之外的一种组件 combiner 组件的父类就是 Reducer combiner 和 re...原创 2020-05-31 15:17:22 · 183 阅读 · 0 评论 -
Appache编译版hadoop-2.7.5安装
集群规划 服务器IP 192.168.177.100 192.168.177.110 192.168.177.120 主机名 node01 node02 node03 NameNode 是 否 否 SecondaryNameNode 是 否 否 dataNode 是 是 是 ResourceManager 是 否 否 NodeManager 是 是 是 第一...原创 2020-05-31 15:17:53 · 384 阅读 · 0 评论 -
apache hadoop三种架构介绍
tandAlone,伪分布,分布式环境介绍以及安装 hadoop 文档 http://hadoop.apache.org/docs/ 一 StandAlone环境搭建 1.1 下载安装 下载链接: http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz cd /export/softwares t...原创 2020-05-31 15:18:20 · 544 阅读 · 0 评论 -
Appache版本hadoop-2.7.5重新编译
**编译软件包集合: 链接:https://pan.baidu.com/s/1D-WRVRthlhkMl_a2BzkNdQ 提取码:3y5h** 与 CDH编译差不多!!! 一 为什么要编译hadoop 由于appache给出的hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题,需要对Hadoop源码包进行重新编译 二 ...原创 2020-04-16 20:57:06 · 590 阅读 · 3 评论