
学习知识点
Ariza.li
这个作者很懒,什么都没留下…
展开
-
Flume
一.Flume框架基础 1.Flume在集群中扮演的角色 Flume,Kafka用来实时进行数据收集,Spark,Storm用来实时处理数据,impala用来实时查询, 2.Flume简介: 2.1.Flume提供了一个分布式的,可靠的,对大数据量的日志进行高效收集、聚焦、移动的服务,Flume只能在Unix环境下运行. 2.2.Fume基于流式框架,容错性强,也很灵活简单,主要用于在线实时分析....原创 2018-09-26 17:28:01 · 305 阅读 · 0 评论 -
HBase入门(五)
一.HBase的MapReduce的调用 1.1查看HBase执行Mapreduce所依赖的jar包 bin/hbase mapredcp 1.2执行的环境变量的导入 $ export HBASE_HOME=/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/ $ export HADOOP_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5....原创 2018-09-25 15:04:51 · 168 阅读 · 0 评论 -
HBase(操作API)
HBase操作API,伪分布式 package org.xiaowu.test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import o...原创 2018-09-19 21:05:44 · 190 阅读 · 0 评论 -
HBase(入门三)读写流程
一.HBase和Hadoop的集群类型 1.单机模型 主要用于开发工作,一台机器上运行所有的守护进程,或者一台机器运行多个虚拟机,一般用于评估和测试. 2.小型集群 20台机器以内的集群,不同的机器运行不同的守护线程,适用于数据量和处理请求较小的小型生产环境. 3.中型集群 20到1000台机器集群,3到5个zooKeeper节点,适用于成熟的生产环境. 4.大型集群 1000台机器以上的集群,属...原创 2018-09-19 08:57:36 · 587 阅读 · 0 评论 -
HBase入门(二)
1.在Client向region中写数据的整个过程中,Hlog和内存中的数据都是过渡的数据,当写入region成功后,Hlog里的数据和内存中数据会定时删除的,以防止内存不足. 一.LRU算法,HBase面向列读取数据很快原理 leastest recently used 二.HBase角色担当: HMaster: 1.监控RegionServer 2.处理RegionServer故障转移 3...原创 2018-09-18 14:11:28 · 246 阅读 · 0 评论 -
HBase入门(一)
1.HBase是依赖HDFS的,HBase的数据是存在RegionServer上的,然后RegionServer数据又存在于datanode. 2. HBase有两个节点HMaster(主)和RegionServer(从) 3. HBase操作表的时候需要元数据,元数据存在zooKeeper上面. 4. 之前学习中,有一条数据,这条信息的所有数据都先进到内存中,然后再把内存中的数据溢写到磁盘...原创 2018-09-18 09:16:05 · 249 阅读 · 0 评论 -
Hive入门(三)
一.Hive中Mysql的引入 1.Hive为啥要依赖一个数据库? Hive的源数据字段的映射,并且源数据的存储信息,文件序列需要存储在数据库中进行说明. 2.为啥Hive要借助关系型数据库? Hive的元数据默认保存在debey数据库中,debey数据库只能单用户登陆,业务效率不高,所以需要借助mysql,oracle这类型的关系型数据库. 3.Service my...原创 2018-09-16 16:44:48 · 200 阅读 · 0 评论