hive调优篇一

0.概述

Hive的一般学习者谈性能调优的时候一般都会从语法和参数的角度来谈优化,而不会革命性的优化Hive的性能。

Hive的核心性能问题往往是在超大规模数据集,例如100亿条级别的数据集,以及每天处理上千上万个Hive作业的情况下产生的。

要从根本上解决实际企业中Hive真正的性能优化问题,必须考虑到底什么是Hive性能的限制,按照级别来说:

  1. 第一重要的是:战略性架构
    解决海量数据大量job过于频繁的IO问题,而这个问题实质上涉及了架构方面的分表,数据复用以及分区表等调优方式;
  2. 第二重要的是:引擎和物理层面
    从Hive语法和job内部的角度去进行优化;
  3. 一些关键的参数

归根到底,Hive的性能调优主要考虑的是如何最大化和最有效地使用CPU、内存和IO。

1. 压缩技术

Hive压缩一般采用Snappy、LZO和GZIP。最常用的是Snappy,因为它比较快。
可以通过两种方式来使用压缩。

一种是设置Hadoop的参数,在core-site.xml文件中。

    <property>
            <name>io.compression.codecs</name>   <value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,org.apache.hadoop.io.compress.DeflateCodec,org.apache.hadoop.io.compress.SnappyCodec,org.apache.hadoop.io.compress.Lz4Codec</value>
  </property>

主要是这个参数 org.apache.hadoop.io.compression.SnappyCodec,使用Snappy来压缩,这样设置凡是在Hadoop上运行的框架也会使用Snappy来压缩。

另一种是单独设置Hive的压缩

set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec=com.hadoop.compression.lzo.LzoCodec;

2.缓存技术

提交作业的时候总会把jar提交到集群中,如果一些jar常用到就会反复提交,这时可以通过缓存的技术把这些常用的东西放到缓存的文件夹中,这样就不用每次都提交了。
跟上面一样也有两种方式,一种是通过Hadoop设置,一种是通过Hive设置。

Hadoop设置:
DistributedCache 是Map/Reduce框架提供的功能,能够缓存应用程序所需的文件 (包括文本,档案文件,jar文件等)。分布式缓存(distributed cache)的机制来将数据分发到集群上的所有节点上。
操作步骤:
1.将数据分发到每个节点上:
DistributedCache.addCacheFile(new Path(args[0]).toUri(), conf);
2.在每个mapper上使用DistributedCache.getLocalCacheFiles()来获取文件,之后再进行相应的操作:
DistributedCache.getLocalCacheFiles();
可参考:http://hpuxtbjvip0.blog.163.com/blog/static/3674131320132794940734/

Hive设置:
hive-site.xml文件中:

hive.aux.jars.path
file:///usr/local/hive/lib/hive-hbase-handler-0.13.1.jar,file:///usr/local/hive/lib/protobuf-java-2.5.0.jar,file:///us
r/local/hive/lib/hbase-client-0.96.0-hadoop2.jar,file:///usr/local/hive/lib/hbase-common-0.96.0-hadoop2.jar,file:///usr/local
/hive/lib/zookeeper-3.4.5.jar,file:///usr/local/hive/lib/guava-11.0.2.jar

标题基于Python的自主学习系统后端设计与实现AI更换标题第1章引言介绍自主学习系统的研究背景、意义、现状以及本文的研究方法和创新点。1.1研究背景与意义阐述自主学习系统在教育技术领域的重要性和应用价值。1.2国内外研究现状分析国内外在自主学习系统后端技术方面的研究进展。1.3研究方法与创新点概述本文采用Python技术栈的设计方法和系统创新点。第2章相关理论与技术总结自主学习系统后端开发的相关理论和技术基础。2.1自主学习系统理论阐述自主学习系统的定义、特征和理论基础。2.2Python后端技术栈介绍DjangoFlask等Python后端框架及其适用场景。2.3数据库技术讨论关系型和非关系型数据库在系统中的应用方案。第3章系统设计与实现详细介绍自主学习系统后端的设计方案和实现过程。3.1系统架构设计提出基于微服务的系统架构设计方案。3.2核心模块设计详细说明用户管理、学习资源管理、进度跟踪等核心模块设计。3.3关键技术实现阐述个性化推荐算法、学习行为分析等关键技术的实现。第4章系统测试与评估对系统进行功能测试和性能评估。4.1测试环境与方法介绍测试环境配置和采用的测试方法。4.2功能测试结果展示各功能模块的测试结果和问题修复情况。4.3性能评估分析分析系统在高并发等场景下的性能现。第5章结论与展望总结研究成果并提出未来改进方向。5.1研究结论概括系统设计的主要成果和技术创新。5.2未来展望指出系统局限性并提出后续化方向。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值