- 博客(9)
- 收藏
- 关注
原创 Flume
一.Flume框架基础 1.Flume在集群中扮演的角色 Flume,Kafka用来实时进行数据收集,Spark,Storm用来实时处理数据,impala用来实时查询, 2.Flume简介: 2.1.Flume提供了一个分布式的,可靠的,对大数据量的日志进行高效收集、聚焦、移动的服务,Flume只能在Unix环境下运行. 2.2.Fume基于流式框架,容错性强,也很灵活简单,主要用于在线实时分析....
2018-09-26 17:28:01
298
原创 HBase入门(五)
一.HBase的MapReduce的调用 1.1查看HBase执行Mapreduce所依赖的jar包 bin/hbase mapredcp 1.2执行的环境变量的导入 $ export HBASE_HOME=/opt/modules/cdh/hbase-0.98.6-cdh5.3.6/ $ export HADOOP_HOME=/opt/modules/cdh/hadoop-2.5.0-cdh5....
2018-09-25 15:04:51
164
原创 HBase(操作API)
HBase操作API,伪分布式 package org.xiaowu.test; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hbase.CellUtil; import o...
2018-09-19 21:05:44
178
原创 HBase(入门三)读写流程
一.HBase和Hadoop的集群类型 1.单机模型 主要用于开发工作,一台机器上运行所有的守护进程,或者一台机器运行多个虚拟机,一般用于评估和测试. 2.小型集群 20台机器以内的集群,不同的机器运行不同的守护线程,适用于数据量和处理请求较小的小型生产环境. 3.中型集群 20到1000台机器集群,3到5个zooKeeper节点,适用于成熟的生产环境. 4.大型集群 1000台机器以上的集群,属...
2018-09-19 08:57:36
573
原创 HBase入门(二)
1.在Client向region中写数据的整个过程中,Hlog和内存中的数据都是过渡的数据,当写入region成功后,Hlog里的数据和内存中数据会定时删除的,以防止内存不足. 一.LRU算法,HBase面向列读取数据很快原理 leastest recently used 二.HBase角色担当: HMaster: 1.监控RegionServer 2.处理RegionServer故障转移 3...
2018-09-18 14:11:28
243
原创 HBase入门(一)
1.HBase是依赖HDFS的,HBase的数据是存在RegionServer上的,然后RegionServer数据又存在于datanode. 2. HBase有两个节点HMaster(主)和RegionServer(从) 3. HBase操作表的时候需要元数据,元数据存在zooKeeper上面. 4. 之前学习中,有一条数据,这条信息的所有数据都先进到内存中,然后再把内存中的数据溢写到磁盘...
2018-09-18 09:16:05
244
原创 Sqoop入门(一)
一.Sqoop初体验: 安装配置完Sqoop后要拷贝jdbc驱动包到sqoop的lib目录下 bin/sqoop help查看帮助 测试sqoop是否连接成功: [hadoop@mylinux sqoop-1.4.5-cdh5.3.6]$ bin/sqoop \ > list-databases --connect jdbc:mysql://mylinux:3306/ \ > ...
2018-09-16 18:45:25
315
原创 Hive入门(二) SQL操作
1.在Hive中用show functions;查看所有系统自带的函数. 2.查询每个部门薪资最高的数目 select deptno,max(sal) from emp GROUP BY deptno; 3.查询显示员工姓名,员工编号,部门名称 select e.enam,e.empno,d.danme FROM emp e JOIN dept d ON e.deptno=d....
2018-09-16 16:45:34
354
原创 Hive入门(三)
一.Hive中Mysql的引入 1.Hive为啥要依赖一个数据库? Hive的源数据字段的映射,并且源数据的存储信息,文件序列需要存储在数据库中进行说明. 2.为啥Hive要借助关系型数据库? Hive的元数据默认保存在debey数据库中,debey数据库只能单用户登陆,业务效率不高,所以需要借助mysql,oracle这类型的关系型数据库. 3.Service my...
2018-09-16 16:44:48
198
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人