大数据中篇
文章平均质量分 84
大数据中篇
Radiation_x
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据中篇03_Flume
Flume 定义:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单 Flume基础架构 Flume安装部署 (1)将apache-flume-1.9.0-bin.tar.gz上传到linux的/opt/software目录下 (2)解压apache-flume-1.9.0-bin.tar.gz到/opt/module/目录下 tar -zxf /opt/software/apache-flume-1.9.0-bin.tar原创 2021-02-09 20:09:56 · 1140 阅读 · 4 评论 -
大数据中篇04_Kafka
Kafka Kafka是scala写的异步处理的消息队列 kafka基础框架 (1)Producer :消息生产者,就是向kafka broker发消息的客户端; (2)Consumer :消息消费者,向kafka broker取消息的客户端; (3)Consumer Group (CG):消费者组,由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据,一个分区只能由一个消费者消费;消费者组之间互不影响。所有的消费者都属于某个消费者组,即消费者组是逻辑上的一个订阅者。 (4)Broker原创 2021-02-09 20:07:22 · 268 阅读 · 0 评论 -
大数据中篇03_flume事务(重点!)
Flume事务(重点) Put 事务流程 doPut:将批数据先写入临时缓冲区 putList doCommit:检查 channel 内存队列是否足够合并 doRollback:channel 内存队列空间不足,回滚数据 Take 事务流程 doTake:将数据取到临时缓冲区 takeList,并将数据发送到 HDFS doCommit:如果数据全部发送成功,则清除临时缓冲区 takeList doRollback:数据发送过程中如果出现异常,rollback 将临时缓冲区 takeList 中的数据归原创 2021-02-09 16:54:32 · 211 阅读 · 0 评论 -
大数据中篇01_Hive
Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计工具 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能 本质是:将HQL转化成MapReduce程序 (1)Hive处理的数据存储在HDFS (2)Hive分析数据底层的实现是MapReduce (3)执行程序运行在Yarn上 Hive的优缺点 优点 (1)操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手) (2)避免了去写MapReduce,减少开发人员的学习成本原创 2021-01-24 10:19:05 · 172 阅读 · 0 评论 -
大数据中篇02_Hive-数据操作语句
Hive-数据操作语句(陆续修改中) 函数部分 查看系统内置函数 1)查看系统自带的函数 hive> show functions; 2)显示自带的函数的用法 hive> desc function upper; 3)详细显示自带的函数的用法 hive> desc function extended upper; 常用内置函数 空字段赋值(NVL) 函数说明 NVL:给值为NULL的数据赋值,它的格式是NVL( value,default_value)。它的功能是如果value为NU原创 2021-01-22 22:40:20 · 284 阅读 · 1 评论
分享