hive高级篇-企业级调优

最新推荐文章于 2023-08-18 15:02:52 发布

原创

最新推荐文章于 2023-08-18 15:02:52 发布 · 590 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hive #big data #hadoop

hive高级篇-企业级调优

文章目录

hive高级篇-企业级调优
前言
一、设置分区
二、hql语句调优
3.数据倾斜
- 3.1 key
- 3.2 mapjoin
4.job优化

前言

大家基础的hive已经学完，发现hive启用的mr框架，如果没有设置好执行计划或者对map语句进行合理的设置，那么会导致语句执行的速度过于缓慢，所以很有必要对hive调优进行学习了解

一、设置分区

静态分区时可以使用insert load。
动态分区只能使用insert。

二、hql语句调优

2.1 避免全表扫描

只选择需要的列和分区

2.2 GroupBy

set hive.map.aggr = true;
set hive.groupby.mapaggr.checkinterval = 100000;
set hive.groupby.skewindata = true; //有数据倾斜时开启负载均衡
开启两个mr 先进行预聚合

2.3 Vectorization

在进行scan filter aggregation开启批量扫描

2.4 多重模式

如果对一张表进行多此的扫描那么可以先from

2.5 in/exist

left semi join替换in exist，因为这种语法不被支持

2.6 CBO

CBO优化是对执行计划进行筛选，选择最优计划进行执行
包含了谓词下推比如先执行where进行数据的筛选再执行join操作

2.7 Map

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

布丁味

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

Hadoop、Spark和Hive调优优化原理

AI天才研究院

08-03

1391

1995年伊藤博文等人提出了MapReduce计算框架，将海量的数据分布式地处理在多台计算机上，并通过分割输入数据集并将其划分为多个任务来并行执行计算，最后合并结果得到整体输出。然而随着互联网和大数据的普及以及处理器性能的提升，当时的技术已经远远超过了当时能够想象的范围。这段时间MapReduce计算框架已经成为一个主流的开源计算框架，包括Hadoop、Pig、Hive、Mahout、Storm等。

数仓Hive基础调优

Monstar_L的博客

06-13

875

引言此篇文章主要针对hive在执行hql时候，所面临的执行效率慢、数据倾斜、jobs任务过多情况进行分析调优；由于本人也是初次了解hive调优方面知识，在网上也查阅了很多资料，写下此篇文章也是为了巩固自己的知识点及能够与各位同学相互交流学习。以下本人会针对配置参数、HQL语句两个方面进行相关调优说明，另外在优化过程中，需要结合业务逻辑去优化会达到事半功倍的效果，后续会陆续更新此方面知识。 ...

参与评论您还未登录，请先登录后发表或查看评论

HIve企业级调优

qq_45143653的博客

11-08

298

一、Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。例如：SELECT * FROM employees;在这种情况下，Hive可以简单地读取employee对应的存储目录下的文件，然后输出查询结果到控制台。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more，老...

Hive 企业级调优

weixin_44966780的博客

12-13

568

企业级调优 1、执行计划（Explain） 1）基本语法 EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query 2）案例实操（1）查看下面这条语句的执行计划没有生成 MR 任务的有生成 MR 任务的（2）查看详细执行计划 hive (default)> explain extended select * from emp; hive (default)> explain extended select deptno, avg(sal)

Hive (十) --------- 企业级调优

在森林里麋了鹿

08-05

795

Hive 企业级优化

Hive之MR优化

勇心在馨

02-10

1478

1、合理设置Map数（1）通常情况下，作业会通过 input 的目录产生一个或者多个 map 任务主要的决定因素有： 1）input 的文件总个数 2）input 的文件大小 3）集群设置的文件块大小（2）是不是 map 数越多越好？答案是否定的。如果一个任务有很多小文件（远远小于块大小 128m），则每个小文件也会被当做一个块，用一个 map 任...

大数据-Hive高级-调优（MR模式）

qq_33434458的博客

01-02

632

hive调优

大数据企业级Hive调优全解析：从Fetch抓取到执行计划

本资源围绕“大数据企业级调优的完整过程”展开，系统性地介绍了从基础配置到高级策略的九大核心调优模块，涵盖了Fetch抓取、本地模式、表结构优化、数据倾斜处理、并行执行、严格模式、JVM重用、推测执行、压缩机制...

Hive高级进阶：大数据仓库核心技术详解与企业优化

本资源是一份针对大数据开发核心技术的大数据仓库Hive的高级进阶培训课程，共分为四部分，涵盖了HiveServer2的深入理解和实践、数据压缩技术在Hive中的应用、数据存储优化以及企业级场景下的Hive实战案例。...

大数据技术分享 Spark技术讲座深入探索具有高级性能调优的SQL Spark 共45页.pdf

最新发布

07-18

通过对Spark SQL及其高级性能调优技巧的深入研究，可以大大提高数据分析的速度和效率，为企业带来更大的价值。未来，随着Spark版本的不断更新，Spark SQL将继续发展和完善，成为大数据处理领域不可或缺的一部分。

Hive调优（配置、表优化、MR优化等）

赵昕彧

04-24

859

一.配置优化 1.Fetch 概念：Hive中某些查询可以不必进行MR运算，比如select X from table，简单的读取和输出table对应目录下的文件，可以不必使用到MR。此时可以查看hive.fetch.task.conversion的设置，可以看到 <property> <name>hive.fetch.task.conversi...

hive参数优化总结

06-20

本文档主要总结了hive的参数优化，对hive的理解具有一定的作用

避免全表扫描的方法

heidyxlw的博客

08-18

1674

2. 索引并不是越多越好，索引固然可以提高相应的 select 的效率，但同时也降低了 insert 及 update 的效率，因为 insert 或 update 时有可能会重建索引，所以怎样建索引需要慎重考虑，视具体情况而定。1.并不是所有索引对查询都有效，SQL是根据表中数据来进行查询优化的，当索引列有大量数据重复时，SQL查询可能不会去利用索引，如一表中有字段sex，male、female几乎各一半，那么即使在sex上建了索引也对查询效率起不了作用。

Hive的优化

pengfei1410的博客

03-05

337

hql会转换成MapReduce执行，所以应该从MapReduce的运行角度来优化性能，最要解决的问题是数据倾斜的问题。比如：尽量不要使用count(distinct) ，因为此时map端没有去重的操作，可以用嵌套子查询来替代，子表是去重后的表尽量使用MapJoin，在Map阶段把小表读入内存，扫描大表完成Join，就没有MapReduce的shuffle过程，也就不存在数据倾斜的问题聚合...

HIVE SQL 代码优化总结(容易踩坑的地方)

lingan_Hong的博客

07-14

2401

hive的出现降低了Hadoop的使用门槛，但是同时由于代码的编写不规范导致出现数据倾斜、高IO、笛卡尔积、运行耗时长等问题，所以要对HQL进行优化。

从0开始学大数据-Hive性能优化篇

DigNew

07-12

530

这里写自定义目录标题表设计层面优化利用分区表优化利用桶表优化选择合适的文件存储格式选择合适的压缩方式语法和参数层面优化列裁剪分区裁剪合并小文件Map 输入合并Map/Reduce输出合并合理控制 map/reduce 任务数量合理控制 mapper 数量合理控制reducer数量Join优化优先过滤数据小表 join 大表原则使用相同的连接键启用 mapjoin尽量原子操作桶表 mapjoinGr...

Hive基础知识(个人总结)

hellosrc的博客

10-24

4885

声明: 1. 本文为我的个人复习总结, 并非那种从零基础开始普及知识内容详细全面, 言辞官方的文章 2. 由于是个人总结, 所以用最精简的话语来写文章

「Hive进阶篇」万字长文超详述hive企业级优化

大数据阶梯之路的博客

07-26

505

万字长文超详述Hive企业级优化

Hive大白话(●四●)

qq_41847894的博客

09-04

885

Hive优化