Hive
文章平均质量分 82
BestbpF
在校大学生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive初学习:了解及配置
背景:在使用mapreduce时,表现出了以下两点不便性:MapReduce is hard to program 【八股文】格式编程,三大部分No Schema, lack of query lanaguages, eg. SQL数据分析,针对DBA、SQL语句,如何对数据分析MapReduce编程成本高FaceBook 实现并开原创 2017-09-26 14:55:37 · 300 阅读 · 0 评论 -
HIVE实战:官方案例练习
测试文件下载本案例来自hive官方文档需求:一份有关观看电影的日志(u.data),有10W条数据,分析出一周内那天观影人数多1、创建原表CREATE TABLE u_data ( userid INT, movieid INT, rating INT, unixtime STRING)ROW FORMAT DELIMITEDFIELDS TERMINATE原创 2017-10-06 11:44:05 · 5493 阅读 · 0 评论 -
HIVE实战:简单处理web日志
需求:简单处理一个web日志,该日志共有11个字段,5794条,现要进行简单处理展示日志中的一条数据:"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.ibeifeng.com/user.php?act=mycourse原创 2017-10-06 11:25:18 · 770 阅读 · 0 评论 -
HBase Hive整合
本次整合使用的是cdh5.5.0的版本(伪分布式环境下)首先 需要在$HIVE_HOME/lib下添加以下jar包guava-14.0.1.jarhbase-common-1.0.0-cdh5.5.0.jar hbase-server-1.0.0-cdh5.5.0.jar hbase-client-1.0.0-cdh5.5.0.jar hbase-protocol-1.0.0-cd原创 2017-10-28 13:50:16 · 360 阅读 · 0 评论 -
HIVE存储格式
TextFileHive默认格式,数据不做压缩,磁盘开销大,数据解析开销大。 可结合Gzip、Bzip2、Snappy等使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。SequenceFileSequenceFile是Hadoop API 提供的一种二进制文件,它将数据以ParquetApache Parquet是Hadoop生态圈原创 2017-11-03 09:35:28 · 392 阅读 · 0 评论 -
Hive---Join 优化
1、连接顺序优化多表连接,会转换成多个MR Job,每一个MR Job在Hive中称为JOIN阶段(Stage)。在每一个Stage,按照JOIN顺序中的最后一个表应该尽量是大表,因为JOIN前一阶段生成的数据会存在于Reducer的buffer中,通过stream最后面的表,直接从Reducer的buffer中读取已经缓冲的中间结果数据(这个中间结果数据可能是JOIN顺序中,前面表连接的结果的Ke原创 2017-11-06 12:05:08 · 3273 阅读 · 0 评论 -
Hive ----DDL
1、创建数据库create database test_db comment 'test database';create database if not exists test_db comment 'test database;create database test_db location '/hive/db/';create database test_db with dbprope原创 2017-11-06 14:19:25 · 429 阅读 · 0 评论
分享