
Hive
文章平均质量分 81
大数据之Hive
MelodyYN
实践
展开
-
Hive是什么?
Hive是什么?缘由由于Mysql数据库存储能力的限制,因此发展而来的Hive可以将数据存储于HDFS上以解决该问题。简介Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能本质:将HQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层的实现是MapReduce执行程序运行在Yarn上优点操作接口采原创 2021-12-20 20:34:50 · 1326 阅读 · 0 评论 -
Hive安装部署
文章目录Hive安装部署1.Hadoop配置文件修改2.安装Hive3.启动并使用Hive4.安装Mysql5.将元数据配置到Mysql6.使用元数据服务的方式访问Hive7.使用JDBC方式访问Hive8. Hive常见属性配置(修改配置需要先关两个hive服务)8.1 Hive运行日志信息配置8.2 Hive启动jvm堆内存设置8.3 打印当前库和表头8.4 参数配置方式Hive安装部署1.Hadoop配置文件修改core-site.xml<!-- 配置该hadoop(superUse原创 2021-12-20 22:42:45 · 748 阅读 · 0 评论 -
Hive中的数据类型
文章目录Hive数据类型1、 Hive、mysql、Java数据类型对比2、 集合数据类型案例3、 类型转换Hive数据类型1、 Hive、mysql、Java数据类型对比HIVEMySQLJAVA长度例子TINYINTTINYINTbyte1byte有符号整数2SMALINTSMALINTshort2byte有符号整数20INTINTint4byte有符号整数20BIGINTBIGINTlong8byte有符号整数20原创 2021-12-23 14:06:52 · 106 阅读 · 0 评论 -
Hive中DDL数据定义语言
文章目录Hive中DDL数据定义语言1、数据库2、表2.1管理表(内部表)2.2 外部表2.3 内部表与外部表的转换2.4 修改表Hive中DDL数据定义语言1、数据库1.创建数据库格式:create database [if not exists] database_name[comment database_comment][location hdfs_path] --数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db[with dbpropeties(p原创 2021-12-23 15:03:01 · 1184 阅读 · 0 评论 -
Hive中DML数据操作语言
文章目录Hive中DML数据操作语言1、数据导入1.1 向表中装载数据1.2 通过查询语句向表中插入数据(Insert)1.3 查询语句中创建表并加载数据(As Select)1.4 创建表时通过Location指定加载数据路径1.5 Import数据到指定Hive表中2、数据导出2.1 Insert导出2.2 Hadoop命令导出到本地2.3 Hive Shell命令导出2.4 Export导出到HDFSHive中DML数据操作语言1、数据导入1.1 向表中装载数据load data [local原创 2021-12-23 15:33:20 · 176 阅读 · 0 评论 -
分区表和分桶表
1、分区表 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。创建表:create table dept_partition(deptno int,dname string, loc string )partitioned by (day string)row format deli原创 2021-12-23 23:18:50 · 525 阅读 · 0 评论 -
Hive函数汇总
文章目录内置函数、行列转换、窗口函数1、常用系统内置函数1.1 常用日期函数1.2 常用取整函数1.3 常用字符串操作函数1.4 集合操作2、行转列、列转行2.1 空字段赋值2.2 CASE WHEN THEN ELSE END2.3 行转列2.4 列转行3、窗口函数3.1 哪些函数才能叫做窗口函数3.2 窗口函数的语法3.3 执行顺序3.4 窗口子句案例:overlag、leadfirst_value、last_valuentilerank、dense_rank row_number内置函数、行列转换、原创 2021-12-24 19:16:04 · 348 阅读 · 0 评论 -
自定义UDF函数
自定义UDF函数需求:自定义一个UDF实现计算给定基本数据类型的长度1、创建Maven工程导入依赖<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency>原创 2021-12-24 20:00:22 · 819 阅读 · 0 评论 -
Hive中的文件格式与压缩存储
文章目录Hive中的压缩1、Hadoop压缩配置1.1 MR支持的压缩编码1.2 压缩参数配置2、开启你Map输出阶段压缩(MR引擎)3、开启你Reduce输出阶段压缩Hive中的存储1、文件存储格式2、行式存储和列式存储TextFile格式Orc格式主流文件存储格式实验默认存储格式和不带压缩ORC存储格式和不带压缩ORC存储格式和Snappy压缩总结Hive中的压缩1、Hadoop压缩配置1.1 MR支持的压缩编码压缩格式算法文件扩展名是否可切分DEFLATEDEFLAT原创 2021-12-30 09:49:01 · 164 阅读 · 0 评论 -
Hive中的多种优化方案
文章目录企业级优化1、Fetch抓取2、本地模式3、执行计划4、表的优化4.1 小表大表join4.2 大表join大表空key过滤空key转换Sort Merge Bucket join(SMB)4.3 MapJoin4.4 Group by4.5 Count(Distinct) 去重统计4.6 行列过滤5、合理设置Map和Reduce数5.1 复杂文件增加Map数5.2 小文件合并5.3 合理设置Reduce数6、并行执行7、严格模式7.1 分区表不适用分区过滤7.2 使用order by没有limit原创 2021-12-30 14:26:11 · 1209 阅读 · 0 评论 -
Hive实战训练
文章目录Hive实战1、观察数据建表1.1 建立外表题目:1、统计视频观看数Top102、统计视频类别热度Top10(类别热度:类别下的总视频数)3、统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4、统计视频观看数Top50所关联视频的所属类别排序5、统计每个类别中的视频热度(视频观看数)Top10,以Music为例6、统计每个类别视频观看数Top107、统计上传视频最多的用户Top10以及他们上传的视频观看次数在前20的视频Hive实战数据视频表字段备注原创 2021-12-30 14:30:03 · 411 阅读 · 0 评论