
Hadoop
6点A君
记录我学习的知识的地方~
展开
-
Hadoop项目简介
首先看一张图:Common,是为Hadoop其他子项目提供的常用工具,主要包括FileSystem、RPC和串行化库。为廉价硬件上搭建云环境提供基本服务,并且会为该平台的软件开发提供所需APIAvro:Avro是用于数据序列化和系统,提供了丰富的数据结构类型,快速可压缩二进制数据格式。MapReduce:是一种编程模型,用于大规模数据集(大于1TB)的并行运算。映射(Map)、化简(Re...原创 2019-03-21 13:48:32 · 718 阅读 · 0 评论 -
大数据学习(一)-Hadoop安装及配置
在前一章已经学习了Hadoop的基本结构,本章内容包括Hadoop的安装以及Hello World。安装博主电脑环境是Ubuntu 16.04 LTS下载首先,从Hadoop官网下载https://hadoop.apache.org/releases.html然后使用tar -vxzf xxx.tar.gz 到目标软件目录配置及使用Hadoop根据不同使用情况提供了三种运行模式单...原创 2019-03-22 11:46:30 · 511 阅读 · 0 评论 -
大数据学习(二)-手把手运行Hadoop的WordCount程序
前一篇文章介绍了Hadoop的安装以及简单配置,博主以伪分布式的方式安装,即单机安装极有master也有cluster。本篇文章将展示如何运行经典的WordCount程序。源代码首先例子源代码如下:package com.anla.chapter1;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...原创 2019-03-22 12:03:59 · 1050 阅读 · 0 评论 -
大数据学习(三)--利用MapReduce对多文件数据进行排序
先来一个小插曲MapReduce Job中的全局数据在MapReduce中如何保存全局数据呢?可以考虑以下几种方式读写HDFS文件,即将变量存在一个地方配置Job属性,即将变量写道配置(Configuration)中使用DistributedCache,但是DistributedCache是只读的排序首先联想MapReduce过程,先Map,给输入,并给输出。Reduce则是将结...原创 2019-03-22 17:55:39 · 4559 阅读 · 3 评论 -
大数据学习(四)-用MapReduce实现表关联
前面使用MapReduce,可以进行单词计数,单词去重,数字排序等,那么结合到数据库应用,如何实现表关联呢?MapReduce更像算法题,怎么通过Map和Reduce这两个步骤来实现关联,得到所需数据呢?例如有一张表,里面两个字段,child和parent,现在让你找出里面的grandChild和grandParent来。...原创 2019-03-23 00:08:29 · 1186 阅读 · 0 评论