
Hadoop
文章平均质量分 91
菜瓜技术联盟
这个作者很懒,什么都没留下…
展开
-
hadoop之重写word count案例
目录 1.需求 2、建立maven工程编写代码 1.配置在pom.xml文件中添加如下依赖 编写程序 (1)编写Mapper类 (2)编写Reducer类 (3)编写Driver驱动类 3.本地测试 4、集群上测试 1.需求 在给定的文本文件中统计输出每一个单词出现的总次数 (1)输入数据 ss ss cls cls jiao shi wangwu cls banzhang xue hadoop (2)期望输出数据 banzhang 1 cls 3 hadoop...原创 2021-02-18 04:24:49 · 633 阅读 · 0 评论 -
hadoop之mapreduce教程+案例学习(一)
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。 MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。 1.2 MapReduce优缺点 1.2.1 优点 1.MapReduce易于编程 它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就...原创 2021-02-11 10:54:38 · 7382 阅读 · 2 评论 -
hadoop之mapreduce教程+案例学习(二)
第3章 MapReduce框架原理 目录 第3章 MapReduce框架原理 3.1 InputFormat数据输入 3.1.1 切片与MapTask并行度决定机制 3.1.2 Job提交流程源码和切片源码详解 3.1.3 FileInputFormat切片机制 3.1.4 CombineTextInputFormat切片机制 3.1.5 CombineTextInputFormat案例实操 3.1.6 FileInputFormat实现类 3.1.7 KeyValueTextInput原创 2021-02-11 10:51:45 · 1273 阅读 · 1 评论 -
hadoop之mapreduce教程+案例学习(三)之数据清洗案例
3.9 数据清洗(ETL) 目录 3.9 数据清洗(ETL) 3.9.1 数据清洗案例实操-简单解析版 3.9.2 数据清洗案例实操-复杂解析版 3.10 MapReduce开发总结 在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。 3.9.1 数据清洗案例实操-简单解析版 1.需求 去除日志中字段长度小于等于11的日志。 (1)输入数据 194.237.142.21原创 2021-02-11 10:49:12 · 4604 阅读 · 4 评论 -
编译Hadoop源码在centos上
注意:本篇演示把32位的Hadoop编译成64位的 一、前期准备工作 1. CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的 注意:采用root角色编译,减少文件夹权限出现问题 2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf) (1)hadoop-2.7.2-src.tar.gz (2)jdk-8u144-linux-x64.tar.gz (3)apache-ant-1.9.9-b...原创 2021-01-12 19:33:00 · 175 阅读 · 0 评论 -
Linux之shell脚本xsync分发文件
#!/bin/bash #1 获取输入参数个数,如果没有参数,直接退出 pcount=$# if((pcount==0)); then echo no args; exit; fi #2 获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fname #3 获取上级目录到绝对路径 pdir=`cd -P $(dirname $p1); pwd` ...原创 2020-03-30 11:45:02 · 1035 阅读 · 0 评论