
Hadoop
Jorocco
爬行者!
展开
-
Hadoop(五)————Zookeeper以及HA(高可用全分布式集群搭建)
1、什么是Zookeeper Broadcast模式极其类似于分布式事务中的2pc(two-phrase commit 两阶段提交):即leader提起一个决议,由followers进行投票,leader对投票结果进行计算决定是否通过该决议,如果通过执行该决议(事务),否则什么也不做。 首先看一下选举的过程,zk的实现中用了基于paxos算法(主要是fastpaxos)...原创 2018-05-01 21:35:06 · 1090 阅读 · 0 评论 -
Hadoop————串行化
1、什么是串行化 串行化简而言之就是将对象转成字节流(二进制格式)存放在磁盘上或用于传输,便于减小存储空间、网络传输,提高效率。在分布式编程中显得尤为重要,如果不进行串行化,则传输效率将得到限制。 2、google的protobuf1.下载google protobuf.protoc-2.5.0-win32.zip添加pom.xml依赖<dependencies&gt...原创 2018-06-22 20:50:31 · 676 阅读 · 0 评论 -
Hadoop————Zookeeper强化
1、Zookeeper的作用1.管理大量主机的协同服务。 2.分布式应用,实现分布式读写技术。 3.zk提供的服务:Naming service //按名称区分集群中的节点.Configuration management //对加入节点的最新化处理。Cluster management //实时感知集群中节点的增减.Leader...原创 2018-06-22 21:43:13 · 815 阅读 · 0 评论 -
Hadoop一些常用的命令以及DataNode、Yarn节点服役、退役
1、Hadoop常用命令hadoop verion //版本hadoop fs //文件系统客户端.hadoop jar //hadoop classpath //查看hadoop类路径hadoop checknative //检查压缩库本地安装情况hadoop启动命令$>start-all.sh //start-dfs...原创 2018-06-08 14:46:24 · 3328 阅读 · 0 评论 -
Hadoop————Hbase强化
1、Hbase的特点可用作hadoop数据库,提供分布式可伸缩大型数据存储。用户能随机、实时读写数据。存储十亿行 x 百万列数量级数据。是版本化、非关系型数据库。面向列存储,table是按row排序。Feature---------------- Linear and modular scalability. //线性模块化扩展方式。 ...原创 2018-06-25 19:32:46 · 916 阅读 · 0 评论 -
Hadoop————flume强化
1、flume的特点 收集、移动、聚合大量日志数据的服务。 基于流数据的架构,用于在线日志分析。 基于事件。在生产和消费者之间启动协调作用。提供了事务保证,确保消息一定被分发。Source 多种、Sink多种。可以有多级跃点。 Source,接受数据,类型有多种。 Channel,临时存放地,对Source中来的数据进行缓冲,直到sink消费掉。 Sink,从channel...原创 2018-06-25 20:07:41 · 353 阅读 · 0 评论 -
Hadoop————Kafka强化
1、kafka的特点分布式流处理平台。在系统之间构建实时数据流管道。以topic分类对记录进行存储,每个记录包含key-value+timestamp每秒钟百万消息吞吐量。producer //消息生产者consumer //消息消费者consumer group //消费者组kafka server //broke...原创 2018-06-25 20:39:00 · 1360 阅读 · 0 评论 -
Hadoop————Storm强化
1、storm的特点storm是一个免费、开源、分布式、实时计算系统。吞吐量高,每秒每节点能达到百万元组。 storm是跨语言、可伸缩的,具有低延迟(秒级/分钟级)、容错的特点。storm与hadoop的对比storm hadoop---------------------------------------------实时流处理 ...原创 2018-06-28 21:07:43 · 904 阅读 · 0 评论 -
安装nginx和ganglia
1、什么是nginx 2、在contos上安装nginx1.a)先安装G++$>sudo yum install gccb)安装pcre$>sudo yum install pcre pcre-devel openssl openssl-devel -yc)手动通过源代码编译安装nginx$>tar -xzvf nginx-1.6.3.tar.tz ...原创 2018-07-22 09:21:49 · 611 阅读 · 0 评论 -
Oozie的简单使用
1、Oozie的介绍 Oozie是一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Hive等任务工作流.同时Oozie还是一个Java Web程序,运行在Java Servlet容器中,如Tomcat中。Oozie以action为基本任务单位,可以将多个action构成一个DAG图(有向无环图Direct Acyclic Graph...原创 2019-05-26 16:27:16 · 5572 阅读 · 0 评论 -
Hadoop————全排序和二次排序
1、多输入 使用多个输入作为job的输入来源,也就是在InputFormat 前把添加各种不同的序列源里面的方法也就是 addInputPath等等,map也可以在这个流程中套进来。 combiner:合成,map的reduce(聚合) 在分区内聚合,分区后产生数据后在分区内聚合(每个分区都会有一个)。代码示例WCTextMapper.java(文本输入格式)package ...原创 2018-06-15 10:19:28 · 3565 阅读 · 0 评论 -
Hadoop————与MySql的交互以及Hive加强
1、与MySql的交互 数据仓库 OLAP //online analyze process,在线分析处理,延迟性高。 数据库 OLTP //online transaction process在线事务处理,实时性好。 1.1 数据库的连接1.创建mysql数据库和表create table users(id int primary k...原创 2018-06-21 21:49:03 · 1228 阅读 · 0 评论 -
Hadoop(六)————Hive
1、什么是Hive 2、Hive的安装Hive只需要在一个节点上安装即可,因为它不是一个集群。2.1 上传tar包2.2 解压tar -zxvf hive-0.9.0.tar.gz -C /app/2.3 安装hive运行hive发现内置默认的metastore存在问题(1.换执行路径后,原来的表不存在了。2.只能有一个用户访问同一个表),所以配置成mysql...原创 2018-05-02 14:54:20 · 316 阅读 · 0 评论 -
Hadoop(七)————HBase
1、什么是HBase 2、HBase集群的搭建2.1 节点规划 2.2 集群搭建1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh...原创 2018-05-02 20:19:00 · 275 阅读 · 0 评论 -
Hadoop(八)————Storm
1、什么是Storm 2、Storm的一些概念 3、Storm的安装1、安装一个zookeeper集群2、上传storm的安装包,解压3、修改配置文件storm.yaml#所使用的zookeeper集群主机storm.zookeeper.servers: - "Sla...原创 2018-05-02 21:34:08 · 384 阅读 · 0 评论 -
Hadoop(九)————Kafka
1、什么是Kafka 1、kafka是一个分布式的消息缓存系统 2、kafka集群中的服务器都叫做broker 3、kafka有两类客户端,一类叫producer(消息生产者),一类叫做consumer(消息消费者),客户端和broker服务器之间采用tcp协议连接 4、kafka中不同业务系统的消息可以通过topic进行区分,而且每一个消息topic都会被分区,以分担消息读写的负载 5...原创 2018-05-03 14:29:15 · 3171 阅读 · 0 评论 -
Hadoop(一)
1、Hadoop是什么 Hadoop主要是由Doung Cutting和Mike Cafarella受到Google的两篇论文(GFS、MapReduce)的启发,采用Java编写的,用于实现海量数据存储和分析,由Apache基金会支持的一个处理大型数据的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算环境,其中两大核心为:HDFS(分布式文件存储系统)和MapRed...原创 2018-04-27 11:13:19 · 801 阅读 · 0 评论 -
Hadoop(二)————集群的搭建
1、条件准备1.1 装Linux系统(CentOS)1.2 配置网络连接采用NAT模式设置静态IP,防止每次开机时IP地址变化,具体设置方式如: 1.3 VMware几种网络配置方式详解 这里写链接内容 1.4 Linux环境配置1.4.1 添加用户adduser hadoop //添加一个名为hadoop...原创 2018-04-28 13:51:03 · 446 阅读 · 0 评论 -
Hadoop(三)————HDFS以及MapReduce、YARN源码分析
1、HDFS源码分析1.1HDFS基本操作代码示例package cn.ctgu.hadoop;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.n...原创 2018-04-28 15:23:15 · 475 阅读 · 0 评论 -
Hadoop(四)————MapReduce代码实现一些基本操作
1、计算总流量需求:在一个超大文件中(如下图)分别统计出每个电话号码的上行流量、下行流量以及流量总和并输出。 FlowBean.javapackage cn.ctgu.hadoop.mr.bean;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import o...原创 2018-04-29 14:24:37 · 2930 阅读 · 0 评论 -
Hadoop——HDFS以及MapReduce的一些总结
1、HDFS API简单操作文件package cn.ctgu.hdfs;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.net.URLConnection;import org.apache.commons.io.output.ByteArrayOu...原创 2018-06-12 10:23:42 · 789 阅读 · 1 评论 -
Sqoop的简单使用
1、Sqoop的介绍 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle…)间进行数据的传递,可以将一个关系型数据库中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。一般情况下,是将数据分析的结果导出到关系型数据库中。2、Sqoop的安装步骤Sqoop选择版本...原创 2019-05-24 10:28:59 · 700 阅读 · 0 评论