
Hadoop
RainbowXin
我们都在遗忘过去
展开
-
Hadoop 三结点搭建
技术选型:1,先搭建主节点 机器配置 IP , 添加用户组 和 用户 lijxgroupadd lijxuseradd -g lijx lijxsu lijxmkdir bin in lijx hometouch xsyncxsyn.sh is[lijx@slave3 bin]$ touch xsync#!/bin/bashpcount=$#...原创 2019-11-19 17:41:33 · 148 阅读 · 0 评论 -
Hadoop 搭建 单节点
Hadoop 3.x hdfs 端口不是50070 是98701, 免密钥登陆 $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys $ chmod 0600 ~/.ssh/authorized_keys2, 安装JDK,...原创 2019-11-17 17:07:56 · 177 阅读 · 0 评论 -
Hadoop-集群搭建,文件配置
1,core-site.xml<configuration> <property> <name>hadoop.tmp.dir</name> <value>/root/hadoop/hadoop-3.2.1/hdfs/tmp</value> </prop...原创 2019-11-12 20:32:02 · 139 阅读 · 0 评论 -
Hadoop - Linux 常用到的指令
1,重启网卡 service network restart2,关闭防火墙service firewalld stop3,Centos7 安装 Mysqlhttps://www.cnblogs.com/easonscx/p/10644346.html原创 2019-11-12 15:13:11 · 116 阅读 · 0 评论 -
Flume环境安装部署
Flume环境安装部署Flume NG部署下面我们来安装部署 Flume NG,这里我们安装配置两个节点cloud003、cloud004,以Avro Source+Memory Channel+HDFS Sink结合方式示例讲解,大家下去可以尝试其他实现方式。1、下载flume安装包。apache-flume-1.6.0-b原创 2017-01-16 16:01:37 · 92 阅读 · 0 评论 -
搭建Eclipse开发环境,开发MapReduce程序
搭建Eclipse开发环境,开发MapReduce程序前面的任务中我们已经搭建了一个伪分布模式的Hadoop运行环境。小讲知道,我们绝大多数同学都习惯在Eclipse中做Java开发,这个课程就是教大家如果搭建一个基于Eclipse IDE的Hadoop开发环境。闲话少说,走起!JDK安装配置如果jdk已经安装成功,这里可以直接跳过j转载 2017-01-16 16:21:16 · 270 阅读 · 0 评论 -
Hadoop概述
Hadoop 概述(一)Hadoop 产生背景及发展历程?Hadoop 产生背景● Hadoop最早起源于Nutch。● Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,它遇到了严重的可扩展性问题,它不能解决数十亿网页的存储与索引问题。● 谷歌发表了两篇论文:一篇是关于谷歌分布式文件系统(GFS)的原创 2017-01-12 15:06:57 · 111 阅读 · 0 评论 -
Hive基本语法操练
Hive 操作(一)表操作 Hive 和 Mysql 的表操作语句类似,如果熟悉 Mysql,学习Hive 的表操作就非常容易了,下面对 Hive 的表操作进行深入讲解。(1)先来创建一个表名为student1的内部表hive> CREATE TABLE IF NOT EXISTS student1 > (sno INT,sname STRING,age IN原创 2017-02-27 21:58:03 · 553 阅读 · 0 评论 -
Hadoop工作流:Oozie与Azkaban
Hadoop 工作流(一)什么是工作流工作流(Workflow),指“业务过程的部分或整体在计算机应用环境下的自动化”。是对工作流程及其各操作步骤之间业务规则的抽象、概括描述。在计算机中,工作流属于计算机支持的协同工作(CSCW)的一部分。后者是普遍地研究一个群体如何在计算机的帮助下实现协同工作的。工作流之JBpM工作流之Activiti(二)Hadoop内置工作流原创 2017-03-08 16:24:43 · 273 阅读 · 0 评论 -
Hive环境的安装部署
Hive 环境的安装部署Hive 安装依赖 Hadoop 的集群,它是运行在 Hadoop 的基础上。 所以在安装 Hive 之前,保证 Hadoop 集群能够成功运行。Hive的安装详细流程如下所示。1、 下载HiveHive是Apache 的一个顶级开源项目,我们可以直接到官网下载需要的版本即可。课程中我们使用的是apache-hive-1.0.0-bin.tar.gz版本,大家可原创 2017-02-26 10:03:53 · 261 阅读 · 0 评论 -
Hadoop集群管理与维护
一、Hadoop集群的管理对于一个集群管理员来说,理解HDFS各个进程存储在磁盘上的数据含义是十分有用的,可以帮助你诊断和排查一些集群问题(一)Namenode的目录结构HDFS进行初次格式化之后将会在$dfs.namenode.name.dir/current目录下生成一系列文件: ${dfs.namenode.name.dir}/current VERSION edi原创 2017-03-09 13:31:49 · 340 阅读 · 0 评论 -
Hadoop监控工具ganglia
Hadoop监控工具Ganglia一、Ganglia是什么?Ganglia主要用来解决什么样的问题?ganglia是一个可扩展的分布式监控系统,用于监控和显示分布式集群节点的状态信息,比如CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,这些信息是由运行在各个节点上的gmond守护进程来采集,然后汇总到gmetad守护进程中。这些数据使用rrdtool来存储,然后将这些历史数原创 2017-03-09 13:33:21 · 164 阅读 · 0 评论 -
网站数据统计分析系统之性能调优
(一)硬件层面优化(1)多网卡1)多网卡绑定为一个IP地址2)可以增加网络带宽、形成网卡的冗余阵列•分担负载,网络流量可以被同时分配到多个网卡上,在同样的流量下,每块网卡负载降低,在流量 增加的时候,由于多块网卡协同作用能够提高网络流量•提高通信可靠性:当其中一块网卡发生故障时,另一块网卡可以继续工作,传输不间断3)在Linux上可以通过配置文件的方式将两个物理网卡绑定在一原创 2017-03-29 14:34:39 · 139 阅读 · 0 评论 -
广电收视率项目之项目需求分析
一、 项目背景《中国好声音》、《快乐男声》、《最美和声》、《中国梦之声》……今年夏天,各种音乐选秀节目竞争激烈。哪个节目更受观众欢迎?节目中的“笑点”和 “尿点”又藏在哪儿?歌华有线的“北京大样本收视数据研究中心”给出了答案。这个去年初才筹建的机构,掌握着最热门的“大数据”计算模式,如今正充当起各个电视节目的幕后“军师”。“大数据”计算,数据样本量的多少是关键。和传统收视率统计方式原创 2017-01-09 20:33:53 · 751 阅读 · 3 评论 -
Hadoop源码编译并配置Snappy压缩
Hadoop源码编译并配置Snappy压缩如果大家直接在官方网站下载Hadoop 安装包,然后安装启动Hadoop集群,会报本地库找不到的警告, 但是不影响集群的运行,警告如下所示:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... u原创 2017-01-13 16:26:29 · 138 阅读 · 0 评论 -
MapReduce多种输入格式
MapReduce多种输入格式 文件是 MapReduce 任务数据的初始存储地。正常情况下,输入文件一般是存储在 HDFS 里面。这些文件的格式可以是任意的:我们可以使用基于行的日志文件, 也可以使用二进制格式,多行输入记录或者其它一些格式。这些文件一般会很大,达到数十GB,甚至更大。那么 MapReduce 是如何读取这些数据的呢?下面我们原创 2016-12-14 22:26:23 · 826 阅读 · 0 评论 -
MapReduce二次排序
MapReduce二次排序 默认情况下,Map 输出的结果会对 Key 进行默认的排序,但是有时候需要对 Key 排序的同时再对 Value 进行排序,这时候就要用到二次排序了。下面让我们来介绍一下什么是二次排序。二次排序原理 我们把二次排序主要分为以下几个阶段。 Map 起始阶段原创 2016-12-21 10:40:30 · 219 阅读 · 0 评论 -
MapReduce编程之Join多种应用场景与使用
Join操作概述在关系型数据库中 Join 是非常常见的操作,各种优化手段已经到了极致。在海量数据的环境下,不可避免的也会碰到这种类型的需求, 例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式,在分布式存储下采用 MapReduce 编程模型,也有相应的处理措施和优化方法。我们先简要地描述待解决的问题。假设有两个数据集:气象站数据库和天气记录数据库,并考虑如原创 2016-12-23 14:09:35 · 134 阅读 · 0 评论 -
实战项目:明星搜索指数统计,找出人气王
实战项目:明星搜索指数统计,找出人气王 上一节我们通过项目演练了 Hadoop 性能的优化,本节我们继续通过项目强化掌握 Combiner 和 Partitioner 优化 Hadoop 性能。项目介绍 本项目我们使用明星搜索指数数据,分别统计出搜索指数最高的男明星和女明星。数据集明星搜索指数数据集原创 2016-12-23 16:38:10 · 200 阅读 · 0 评论 -
深入剖析MapReduce架构及原理
MapReduce应用场景MapReduce 定义Hadoop 中的 MapReduce 是一个使用简单的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错式并行处理TB级别的数据集。MapReduce 来源Hadoop MapReduce 源于 Google 在2004年12月份发表的 MapReduce 论文。 Hado原创 2016-12-23 16:43:22 · 133 阅读 · 0 评论 -
Hadoop概述
Hadoop 概述(一)Hadoop 产生背景及发展历程?Hadoop 产生背景● Hadoop最早起源于Nutch。● Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,它遇到了严重的可扩展性问题,它不能解决数十亿网页的存储与索引问题。● 谷歌发表了两篇论文:一篇是关于谷歌分布式文件系统(GFS)的原创 2016-12-26 10:35:32 · 199 阅读 · 0 评论 -
手把手教你搭建5节点Hadoop分布式集群(HA)
前言本节课程我们使用hadoop2.6.0版本配置Hadoop集群,同时配置NameNode+HA、ResourceManager+HA,并使用zookeeper来管理Hadoop集群。(一)HDFS概述基础架构1、NameNode(Master)1)命名空间管理:命名空间支持对HDFS中的目录、文件和块做类似文件系统的创建、修改、删除、列表文件和目录等基本原创 2017-01-04 15:09:26 · 290 阅读 · 0 评论 -
MapReduce数据倾斜与优化
MapReduce数据倾斜与优化MapReduce 优化 Combiner和Partitioner是用来优化MapReduce的,可以提高MapReduce的运行效率。下面我们来具体学习这两个组件。Combiner 我们以WordCount为例,首先通过下面的示意图直观的了解一下Combiner的位置和作用原创 2016-12-28 10:15:42 · 165 阅读 · 0 评论 -
初步掌握YARN的架构及原理
初步掌握YARN的架构及原理YARN 产生背景MapReduce存在的问题:1)JobTracker 单点故障。2)JobTracker 承受的访问压力大,影响系统的扩展性。3)不支持MapReduce之外的计算框架,比如Storm、Spark、Flink什么是YARNYARN 是Hadoop2原创 2016-12-28 13:52:56 · 134 阅读 · 0 评论 -
深入学习ZooKeeper架构原理
深入学习ZooKeeper架构原理ZooKeeper 是什么?ZooKeeper 是一个针对大型分布式系统的可靠协调系统;它提供的功能包括:配置维护、名字服务、分布式同步、组服务等; 它的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户; ZooKeeper 已经成为 Hadoop 生态系统中的基础组件。原创 2016-12-28 13:54:38 · 154 阅读 · 0 评论 -
ZooKeeper分布式环境部署
ZooKeeper分布式环境部署ZooKeeper 安装部署ZooKeeper 安装部署分为三种模式,请各位同学根据自己的实际情况选择不同的模式,下面我们分别介绍这三种模式。单节点模式1、首先到官方网站下载ZooKeeper安装包。 这里我们选择zookeeper-3.4.6版本。2、对zookeeper-3.4.6安原创 2016-12-28 15:12:09 · 254 阅读 · 0 评论 -
搭建zookeeper 分布式集群
0.修改网络配置vi /etc/sysconfig/network-scripts/ifcfg-eth01.添加hadoop 用户及组groupadd hadoopuseradd -g hadoop hadooppasswd hadoop (123)hadoop 用户 创建 approot 上传 zookeeper 解压 配置原创 2016-12-29 11:14:06 · 226 阅读 · 0 评论 -
MapReduce多种输出格式
针对前面介绍的输入格式,Hadoop 都有相应的输出格式。默认情况下只有一个 Reduce,输出只有一个文件,默认文件名为 part-r-00000,输出文件的个数与 Reduce 的个数一致。 如果有两个Reduce,输出结果就有两个文件,第一个为part-r-00000,第二个为part-r-00001,依次类推。OutputFormat 接口 Out原创 2016-12-14 22:23:22 · 323 阅读 · 0 评论