
Hadoop
lby0307
这个作者很懒,什么都没留下…
展开
-
hadoop 2.7.1安装和配置
一、安装环境 硬件:虚拟机 操作系统:Centos 6.4 64位 IP:192.168.241.128 主机名:admin 安装用户:root 二、安装JDK 安装JDK1.7或者以上版本。这里安装jdk1.7.0_79。 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/index.html 1,下载jdk-...原创 2018-01-16 17:38:14 · 920 阅读 · 0 评论 -
使用Flume+Kafka+SparkStreaming进行实时日志分析
每个公司想要进行数据分析或数据挖掘,收集日志、ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码1. 整体架构思考一下,正常情况下我们会如何收集并分析日志呢?首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上...转载 2018-03-17 21:26:04 · 1742 阅读 · 0 评论 -
mapreduce的核心--shuffle理解,以及在shuffle中的优化
关于shuffle的过程图。 一:概述shuffle Shuffle是mapreduce的核心,链接map与reduce的中间过程。 Mapp负责过滤分发,而reduce则是归并整理,从mapp输出到reduce的输入的这个过程称为shuffle过程。 二:map端的shuffle 1.map结果的输出 map的处理结果首先存放在一个环形的缓冲区。 这个缓冲区的内存是100M,是map...转载 2018-03-14 09:25:19 · 382 阅读 · 0 评论 -
运行Hadoop自带的wordcount单词统计程序
1.使用示例程序实现单词统计(1)wordcount程序wordcount程序在hadoop的share目录下,如下:[root@linuxidc mapreduce]# pwd /usr/local/hadoop/share/hadoop/mapreduce[root@linuxidc mapreduce]# ls hadoop-mapreduce-client-app-2.6.5.jar ...转载 2018-04-27 20:19:24 · 2677 阅读 · 0 评论