
大数据集群
allen398
本人是一位技术爱好者,希望在这里认识到更多的朋友
展开
-
Azkaban
Azkaban一 概述1.1 什么是AzkabanAzkaban是由Linkedin公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的key:value对的方式,通过配置中的Dependencies 来设置依赖关系。Azkaban使用job配置文件建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作...原创 2020-05-05 12:32:04 · 696 阅读 · 0 评论 -
Phoenix
第 1 章 Phoenix 简介1.1 Phoenix 定义Phoenix 最早是 saleforce 的一个开源项目,后来成为 Apache 的顶级项目。Phoenix 构建在 HBase 之上的开源 SQL 层. 能够让我们使用标准的 JDBC API 去建表, 插入数据和查询 HBase 中的数据, 从而可以避免使用 HBase 的客户端 API.在我们的应用和 H...原创 2020-05-05 12:16:58 · 355 阅读 · 0 评论 -
Sqoop
Sqoop第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、oracle...)之间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一...原创 2020-05-05 12:05:27 · 411 阅读 · 0 评论 -
Flume
Flume第1章 Flume概述1.1 Flume定义Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。1.2 Flume基础架构Flume组成架构如图1-1所示:图1-1 Flume组成架构下面我们来详细介绍一下Flume架构中的组件:1.2.1 Agent...原创 2020-05-05 11:52:38 · 533 阅读 · 0 评论 -
HBase
HBASE第 1 章NoSQL简介1.1 关系型数据库的查询瓶颈当用户表的数据达到几千万甚至几亿级别的时候,对单条数据的检索将花费数秒甚至达到分钟级别。实际情况更复杂,查询的操作速度将会受到以下两个因素的影响:①高并发的更新(插入、修改、删除)操作。大中型网站的并发操作一般能达到几十乃至几百并发,此时单条数据查询的延时将轻而易举地达到分钟级别。②多表关联后的复杂查询...原创 2020-05-04 12:33:56 · 287 阅读 · 0 评论 -
Hive
Hive第1章 Hive入门1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执...原创 2020-05-04 12:10:29 · 284 阅读 · 0 评论 -
Kafka
Kafka第1章 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 传统消息队列的应用场景1.2.2 消息队列的两种模式(1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除)消息生产者生产消息发送到Queue中,然后消息消费者从...原创 2020-05-04 11:17:07 · 548 阅读 · 0 评论 -
Zookeeper
Zookeeper一、Zookeeper概述1.1 概述分布式系统:分布式系统指由很多台计算机组成的一个整体!这个整体一致对外,并且处理同一请求!系统对内透明,对外不透明!内部的每台计算机,都可以相互通信,例如使用RPC/REST或者是WebService!客户端向一个分布式系统发送的一次请求到接受到响应,有可能会经历多台计算机!Zookeeper是一个开源的分布式的,为分布式应用...原创 2020-05-04 09:05:35 · 180 阅读 · 0 评论 -
Hadoop编译源码
Hadoop编译源码1 前期准备工作1. CentOS联网配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的注意:采用root角色编译,减少文件夹权限出现问题2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u14...原创 2020-05-04 08:12:39 · 225 阅读 · 0 评论 -
hadoop集群搭建
测试原创 2020-05-04 07:59:02 · 167 阅读 · 0 评论