
Hive
文章平均质量分 95
有梦想的人不睡觉121
大数据开发
展开
-
Hive 大查询报警
原文地址Hive 大查询报警背景在知乎内部,Hive 主要被应用与两个场景:1. ETL 核心链路任务 2. Adhoc 即席查询。在 ETL 场景下,Hive SQL 任务都比较固定而且稳定,但是在 Adhoc 场景下,用户提交的 Hive SQL 比较随机多变。在用户对 SQL 没有做好优化的情况下,启动的 MapReduce 任务会扫描过多的数据,不仅使得任务运行较慢,还会对 HDFS 造成巨大压力,影响集群的稳定性,这种情况在季度末或者年底出现得极为频繁,有些用户会扫描一季度甚至一整年的数据原创 2021-09-02 11:21:29 · 623 阅读 · 0 评论 -
Hive优化实践
不管是对于流行的分布式数据计算框架(如离线的 MapReduce、流计算 Storm、 迭代内 存计算 Spark),还是分布式计算框架新贵(如 Flink、 Beam),抑或是商业性的大数据解决 方案(如 Teradata 数据库、 EMC Greeplum、 HP Vertica、 Oracle Exadata),“数据量大”从 来都不是问题,因为理论上来说,都可以通过增加并发的节点数来解决。...原创 2019-11-11 18:02:59 · 906 阅读 · 0 评论 -
Hive性能优化(全面)
原文地址:https://mp.weixin.qq.com/s/sVtfUFwoAbAyUq93W2M0wA1.介绍首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长。原因是map reduce作业初始...转载 2018-08-27 14:32:55 · 6402 阅读 · 1 评论 -
HIVE的十项企业级调优
原文地址:https://blog.youkuaiyun.com/Superman404/article/details/84074771话不多说直接上货。。。。。。。。。。。。。。。。。。。。。。。。。。。1.Fetch抓取 set hive.fetch.task.conversion=more(默认)Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。...转载 2018-11-23 10:09:56 · 258 阅读 · 0 评论 -
hive数据压缩和sql执行测试
1.创建库create database hivetest;hive默认有一个default库,不指定库名的话,所有的表都在里面hive> show databases;defaulthivetest2.建表建表语句基本和mysql差不多create table querylog (time string,userid string,keyword string...原创 2019-03-05 14:41:51 · 595 阅读 · 1 评论