
hive
文章平均质量分 55
Stannis
小白
展开
-
Hive小文件问题
【代码】Hive小文件问题。原创 2023-04-07 13:40:11 · 862 阅读 · 1 评论 -
数据倾斜问题
一个任务中,数据文件在进入map阶段之前会进行切分,默认是128M一个数据块,但是如果当对文件使用GZIP压缩等不支持文件分割操作的压缩方式时,MR任务读取压缩后的文件时,是对它切分不了的,该压缩文件只会被一个任务所读取,如果有一个超大的不可切分的压缩文件被一个map读取时,就会发生map阶段的数据倾斜。这里我们需要明确一个概念,数据放到同一个reduce中的原因不是因为字段能不能join上,而是因为shuffle阶段的hash操作,只要key的hash结果是一样的,它们就会被拉到同一个reduce中。转载 2023-04-06 16:22:12 · 434 阅读 · 0 评论 -
【Hive/Spark】常见参数配置
(用于spark3中字段类型不匹配(例如datetime无法转换成date),消除sql中时间歧义,将Spark .sql. LEGACY . timeparserpolicy设置为LEGACY来恢复Spark 3.0之前的状态来转化)(4)set spark.sql.finalStage.adaptive.advisoryPartitionSizeInBytes=2048M;原创 2023-04-03 15:08:17 · 1677 阅读 · 0 评论 -
Hive基础知识(三)--分桶表
1、分桶表分桶和分区一样,也是一种通过改变表的存储模式,从而完成对表优化的一种调优方式,但和分区不同的是,分区是将表拆分到不同的子目录中进行存储,而分桶是将表拆分到不同文件中进行存储。2、分桶操作目的改变数据的存储分布,提升查询、取样、Join等特定任务的执行效率。3、分桶表的操作CREATE [EXTERNAL] TABLE <table_name>(<col_name> <data_type> [, <col_name> <data_t原创 2022-04-02 11:37:40 · 4190 阅读 · 0 评论 -
Hive基础知识(二)--分区表
二、表分区1、创建分区表CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name[(col_name data_type [COMMENT col_comment], ... [constraint_specification])][COMMENT table_comment]PARTITIONED BY (col_name1 data_type, col_name2 data_type [COMMENT co原创 2022-04-01 17:06:05 · 2036 阅读 · 0 评论 -
Hive基础知识(一)
一、SQL DDL1、启动hive首先使用【jps】查看hive是否启动# 启动hiveserver2hive --service hiveserver2 &# 启动metastorehive --service metastore &2、进入hive# 方法一:beeline方式(推荐)beeline -u jdbc:hive2://node03:10000 -n root# 方法二:hive cli方式hive3、数据库基本操作创建数据库create原创 2022-03-31 17:15:45 · 5071 阅读 · 0 评论