
Hive
运动人生
本人很懒,什么都没留下!
展开
-
Hive概述、内部表、外部表、分区表的操作
Hive概述、内部表、外部表、分区表的操作一、Hive概述 Hive是基于Hadoop的一个数据仓库工具。可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取、转化、加载(ETL Extract-Transform-Lo...原创 2018-11-09 16:48:08 · 510 阅读 · 0 评论 -
Hive数据类型、 explode、自定义UDF
Hive数据类型、 explode、自定义UDF一、基本类型二、复杂类型三、数组类型 array 案例一、 元数据: 100,200,300 200,300,500 建表语句:create external table ex(vals array) row format delimited fields terminated by ‘\t’ collection ...原创 2018-11-09 17:38:17 · 1288 阅读 · 0 评论 -
Hive常用函数和分桶表
Hive常用函数和分桶表一、字符串常用函数二、分桶表 分桶操作是更细粒度的分配方式,一张表可以同时分区和分桶,分桶的原理是根据指定的列的计算hash值模余分桶数量后将数据分开存放。 Hive的分桶实际上就是Hadoop的分区,有几个桶,就用几个reduce任务来处理。 需要注意的是:分桶表必须是内部表。因为只有在创建表的时候才能指定桶的数量,然后在往表里插入数据的...原创 2018-11-09 20:30:19 · 798 阅读 · 0 评论 -
Hive体系结构
Hive体系结构一、用户接口 用户接口主要有三个:CLI,JDBC 和 WUI 1.CLI,最常用的模式。实际上在>hive 命令行下操作时,就是利用CLI用户接口。 2.JDBC,通过java代码操作,需要启动hiveserver,然后连接操作。 3.WUI,是通过浏览器访问Hive。但是需要启动hwi服务,执行:./hive service hwi & ...原创 2018-11-09 21:22:23 · 420 阅读 · 0 评论 -
Hive执行中map的数量和reduce的数量怎么控制
一、 控制hive任务中的map数:通常情况下,作业会通过input的目录产生一个或者多个map任务。主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);举例:a) 假设input目录下有1个文件a,大小为780M,那么had...转载 2018-11-16 21:25:47 · 756 阅读 · 0 评论 -
Hive中json格式数据的处理
Hive中json格式数据的处理参考博客:Hive中自定义UDF函数解析json格式数据转载 2018-11-18 15:45:13 · 464 阅读 · 0 评论