
Hive
Hive
LittleMagics
Flinker @ JD.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive on Spark参数调优小结
前言Hive on Spark是指使用Spark替代传统MapReduce作为Hive的执行引擎,在HIVE-7292提出。Hive on Spark的效率比on MR要高不少,但是也需要合理调整参数才能最大化性能,本文简单列举一些调优项。为了符合实际情况,Spark也采用on YARN部署方式来说明。Executor参数spark.executor.cores...原创 2020-02-27 23:05:44 · 2940 阅读 · 0 评论 -
迟到的Kudu设计要点面面观(前篇)
后篇传送门:https://www.jianshu.com/p/24bdc6f62e84目录PrologueKudu的初衷集群架构与共识保证表与分区的设计底层存储设计细节事务与数据一致性(待续)与Impala、Spark集成(待续)Benchmarking(待续)当前的主要不足(待续)简单调优方法(待续)PrologueKudu在大数据技术栈中是个相...原创 2019-07-10 21:18:39 · 298 阅读 · 0 评论 -
正确使用Impala的invalidate metadata与refresh语句
在Impala中,invalidate metadata与refresh语句都可以用来刷新表,但它们本质上还是不同的。本文简要分析一下,并说明它们应该在什么情况下使用。Impala on Hive介绍我们一般会采用传统的MySQL或PostgreSQL数据库作为Hive的Metastore(元数据存储)组件。在CDH中默认是MySQL,我们可以通过show tables in ...原创 2019-10-06 23:18:08 · 1580 阅读 · 0 评论 -
向Hive导入TPC-H测试数据集
在数据库和大数据领域,TPC提供的基准测试数据集是做Benchmark的事实标准。常用且主要的TPC数据集有如下几种:TPC-C:模拟一个库存-订单系统以及其上的多用户并发事务;TPC-DI:模拟多种类型的大数据源的ETL过程;TPC-DS:模拟大型零售业务的系统,该系统主要用于BI和决策支持,数据量和OLAP查询复杂度都很高,是TPC数据集中最大的;TPC-E:模拟证券...原创 2019-07-27 22:35:40 · 1342 阅读 · 0 评论 -
用HiveQL计算连续天数问题的方法
昨晚简书服务器可能出了什么bug,文章发布出去都会变成完全空白。没办法,只能断更一天,放在今天发了,大概能达到十万字里程碑了吧。在日常工作中,可能经常会接到业务方类似这样的需求:统计今年每个用户最长连续签到的天数;统计最近一个月连续有回帖超过5天的话题;统计本季度中连续3天以上单日销量超过100的商品。这种“连续天数”问题看似简单,但实际上对思维能力和编写复杂SQL语...原创 2019-05-13 14:35:05 · 3619 阅读 · 0 评论 -
HiveQL collect_list保持顺序小记
有以下Hive表的定义:create table topic_recommend_score ( category_id int, topic_id bigint, score double, rank int);这张表是我们业务里话题推荐分值表的简化版本。category_id代表分类ID,topic_id是话题ID,score是评分值。rank代表每个分...原创 2019-04-19 19:13:57 · 4179 阅读 · 0 评论 -
Hive/HiveQL常用优化方法全面总结(下篇)
本文接上篇(https://www.jianshu.com/p/8e2f2f0d4b6c)继续讲解Hive/HiveQL常用优化方法,按照目录,会从“优化SQL处理join数据倾斜”说起。优化SQL处理join数据倾斜上篇已经多次提到了数据倾斜,包括已经写过的sort by代替order by,以及group by代替distinct方法,本质上也是为了解决它。join操作更是...原创 2019-03-05 23:01:31 · 284 阅读 · 0 评论 -
Hive/HiveQL常用优化方法全面总结(上篇)
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。由于在写的过程中发现篇幅过长,因此决定拆成上下两篇发布。上篇包含从开头到join优化的内容,下篇的...原创 2019-02-26 22:44:49 · 437 阅读 · 0 评论