MapReduce\Hadoop\HDFS上\Hive学习笔记

MapReduceHadoop提供的分布式计算框架,它可以用来统计和分析HDFS上的海量数据;

Hive则是SQL On HadoopHive提供了SQL接口,开发人员只需要编写简单易上手的SQL语句,Hive负责把SQL翻译成MapReduce,提交运行。

如何把数据源的数据采集到Hadoop

Hadoop与关系型数据库数据交换的工具:Sqoop\Flume\DataX

1、HDFS API,实际环境中一般自己较少编写程序使用API来写数据到HDFS,通常都是使用其他框架封装好的方法。

2、Sqoop是一个主要用于Hadoop/Hive与传统关系型数据库Oracle/MySQL/SQLServer等之间进行数据交换的开源框架。

3、Flume是一个分布式的海量日志采集和传输框架,因为“采集和传输框架”,所以它并不适合关系型数据库的数据采集和传输。

Flume可以实时的从网络协议、消息系统、文件系统采集日志,并传输到HDFS上。


4、阿里开源的 DataX

Hadoop上的数据搞到别处去

1、HDFS上的文件GET到本地。

2、HDFS API

3、DataX

4、Sqoop

SQL On Hadoop的框架

1、SparkSQLImpalaPresto.

数据的一次采集、多次消费

Flume不能间隔很短就往HDFS上滚动文件,这样会导致小文件特别多。

为了满足数据的一次采集、多次消费的需求,这里要说的便是Kafka


调度监控系统


当平台中有几百上千个任务需要维护和运行时候,仅仅靠crontab远远不够了

调度监控系统是整个数据平台的中枢系统,类似于AppMaster,负责分配和监控任务

常用工具:

1、Apache Oozie

2、其他:Azkaban、light-task-schedulerZeus

介绍网站:https://azkaban.github.io/

https://github.com/ltsopensource/light-task-scheduler

https://github.com/alibaba/zeus


数据分为实时和准实时

实时使用最多的工具是:storm

准实时工具:spark streaming


对外提供数据的方式

1、满足实时查询,可能的方案有:HBaseRedisMongoDBElasticSearch

2、



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值