- 博客(8)
- 资源 (1)
- 问答 (1)
- 收藏
- 关注
原创 Flume详解
1、Flume简介(1)、flume提供分布式,可靠的,对海量的日志进行搞笑收集,聚集,移动的服务,flume只能在unix环境下运行;(2)、flume基于流式架构,容错性强,也很灵活简单;(3)、flume,kafka用来进行实时数据收集,spark、storm用来实时处理数据,impala用来实时查询;二、Flume架构2.1、source用于采集收据,source是产生数据流...
2018-12-06 23:21:42
3541
1
原创 Sqoop详解
Sqoop介绍Sqoop是在hadoop和数据库之间传输大量数据的工具原理:将导入导出命令翻译成MR成功徐来实现,在翻译出的MR中主要是对inputformat和outputformat进行定制。安装与配置1)解压安装 (这里以sqoop1.4.7为例)2)修改配置文件重命名文件mv sqoop-env-template.sh sqoop-env.sh修改 sqoop-env...
2018-12-06 17:35:27
970
1
原创 HVIE详解(四):企业级调优
Fetch抓取hive中的某些查询不必使用MR,例如select * from,在这种情况下,hive可以简单的读取表的存储目录下的文件,然后输出查询结果到控制台。hive.fetch.task.conversion设置成mre,如下查询方式都不会执行MR程序hive (default)> set hive.fetch.task.conversion=more;hive (def...
2018-12-05 21:17:13
415
原创 HIVE详解(三):hive操作
hive数据类型1.1 原子数据类型:TINYINT,SMALINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,TIMESTAMP,BINARY。常用的有INT,BOOLEAN,FLOAT,DOUBLE,STRING,其中string对应数据库的varchar类型,是一个可变的字符串,不能生命最多存储多少个字符,理论上可以存储2GB的字符数。2.2 集...
2018-12-05 18:58:19
888
原创 HIVE详解(一):基本概念
基本概念什么是hivehive是由Facebook开源用于解决海量结构化日志的数据统计;hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能;hive的本质是将hiveQL语句转化成MR程序;hive处理的数据存储在HDFS,hive分析数据底层实现是MR,执行程序运行在Yarn上。hive的优缺点2.1优点:1)操作接口...
2018-12-05 08:13:12
1495
急求:java操作hdfs错误
2018-04-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人