
Hive权威指南
csyigy
这个作者很懒,什么都没留下…
展开
-
《Hive权威指南》第九章:模式设计
文章目录9 模式设计9.1 按天划分的表9.2 关于分区9.3 唯一键和标准化9.4 同一份数据多种处理9.5 对于每个表的分区9.6 分桶表数据存储9.7 为表增加列9.8 使用列式存储9.8.1 重复数据9.8.2 宽表9.9 (几乎)总是使用压缩9 模式设计hive看上去与实际操作都像一个关系型数据库,但是事实上Hive是反模式。9.1 按天划分的表对于数据集增长很快的情况,可以使用这种方式,在表名中加入一个时间戳,例如upply_2020_05_20、upply_2020_05_21等。当原创 2020-06-24 17:40:02 · 251 阅读 · 0 评论 -
《Hive权威指南》第八章:HiveQL索引
目录8 HiveQL:索引8.1 创建索引Bitmap索引8.2 重建索引8.3 显示索引8.4 删除索引8.5 实现一个定制化索引处理器8 HiveQL:索引Hive只有有限索引的功能。Hive中没有普通关系型数据库中键的概念,但是还是可以对一些字段建立索引来加速某些操作的。一张表的索引数据存储在另外一张表中。当逻辑分区实际上太多太细而几乎无法使用时,建立索引也就成为分区的另一个选择。建立...原创 2020-04-13 15:46:56 · 301 阅读 · 2 评论 -
《Hive权威指南》第七章:HiveQL视图
文章目录1 使用视图来降低查询复杂度2 使用视图来限制基于条件过滤的数据3 动态分区中的视图和map类型4 其他关于视图的一些事情视图可以允许保存一个查询并像对待表一样对这查询进行操作。这个是一个逻辑结构,因为它不像表会存储数。当一个查询引用视图时,这个视图所定义的查询语句将和用户的查询语句组合在一起,然后供Hive指定查询计划。从逻辑上讲,可以想象为Hive先执行这个视图,然后使用这个结果进...原创 2020-04-03 15:43:28 · 744 阅读 · 0 评论 -
《Hive权威指南》第六章:查询
1.SELECT … FROM 语句SELECT是SQL中的射影算子。FROM子句标识了从哪个表、视图或嵌套查询中选择记录,SELECT指定了要保存的列以及输出函数需要调用的一个或多个列(例如,COUNT(*) 这样的聚合函数)。employees表:CREATE TABLE employees( name STRING, salary ...原创 2020-03-30 14:40:34 · 422 阅读 · 0 评论 -
《Hive权威指南》第五章:数据操作
1.向管理表中装载数据LOAD DATA LOCAL INPATH '${env:HOME}/california-employees'OVERWRITE INTO TABLE employeesPARTITION (country='US', state='CA');如果分区目录不存在的话,这个命令会先创建分区目录,然后再将数据拷贝到该目录下。如果使用了LOCAL关键字,那么这个路径...原创 2020-03-30 14:22:16 · 221 阅读 · 0 评论 -
《Hive权威指南》第四章:数据定义
目录1.Hive中的数据库2.修改数据库3.创建表3.1管理表3.2外部表4.分区表和管理表4.1外部分区表4.2自定义表的存储格式5.删除表6.修改表6.1.表重命名6.2.增加、修改和删除表分区6.3.修改列信息6.4.增加列6.5.删除或者替换列6.6.修改表属性6.7.修改存储属性6.8.众多的修改表语句Hive和MySQL最接近但是两者也存在显著性差异。Hive不支持行级插入操作、更新...原创 2020-03-30 14:16:18 · 575 阅读 · 0 评论