
hive
jiedaodezhuti
目前工作主要涉及大数据平台,数据治理方面的工作;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
记录一次hive无法删除异常分区问题
今天在做数据导入时,发现有几个异常分区。因为异常分区影响到BI端数据报表展示。所以需要删除;当执行删除分区命令是一直报如下错误无法删除分区,然后就使用hdfs dfs -rm -rf /命令删除分区后,使用msck修复后,分区并未删掉。最后查看分区字段类型时,发现dt是date类型;ALTER TABLE smart.smart_company_dws PARTITION COLUMN (dt string);改成string类型后操作成功;...原创 2022-05-17 16:51:30 · 978 阅读 · 0 评论 -
Hive参数设置
1.设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;设置为mr就会调用Hadoop的maprecude执行job程序;设置执行引擎为spark就会调用spark来执行任务。若有条件设置为Spark,因为运行比Hadoop的MapReduce快。2.启动动态分区功能set hive.exec.dynamic.partition=true;3.允许全部分区都是动态分区set hive.exec.dynamic.原创 2020-10-10 09:43:00 · 860 阅读 · 0 评论 -
hive的trim函数
该函数去掉字段值前后空格原创 2020-10-10 09:25:35 · 5591 阅读 · 0 评论 -
Hive SQL的编译过程
Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了一些大大小小的问题。通过向社区的咨询和自己的努力,在解决这些问题的同时我们对Hive将SQL编译为MapReduce的过程有了比较深入的理解。对这一过程的理解不仅帮助我们解决了一些Hive的bug,也有利于我们优化Hive SQL,提升我们对转载 2020-08-05 17:21:04 · 261 阅读 · 0 评论 -
HiveSQL常用优化方法全面总结
Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整。列裁剪和分区裁剪最基本的操作。所谓列裁剪就是在查询时只读取需要的列,分区裁剪就是只读取需要的分区。以我们的日历记录表为例:select uid,event_type,record_datafrom calendar_re转载 2020-08-04 17:09:45 · 253 阅读 · 0 评论 -
hql性能优化
性能低的来源hive性能优化时,把HiveQL当做M/R程序来读,即从M/R的运行角度来考虑优化性能,从更底层思考如何优化运算性能,而不仅仅局限于逻辑代码的替换层面。Hadoop处理数据的显著特征:1.数据的大规模并不是负载重点,造成运行压力过大原因是数据倾斜;2.jobs数比较多也是作业运行效率低的原因之一,如一个几百行的表,多次关联对此汇总,产生几十个jobs,将需要花费大量时间且大部分时间用于作业分配,初始化和数据输出。M/R作业初始化的时间是比较耗时间资源的一个部分;3.在使用SUM,CO原创 2020-07-07 15:53:27 · 949 阅读 · 0 评论 -
去除txt文件中字段的双引号
直接运行命令即可sed ‘s/"//g’ 20200618.txt > tax.txt20200618.txt源文件tax.txt结果文件文件也可以是csv原创 2020-06-18 11:11:58 · 2598 阅读 · 0 评论 -
HiveQL配置文件优化策略
HiveQL从Map/Reduce的运行角度来考虑优化性能,从更底层思考如何优化运算性能.2.1列裁剪HiveQL只读所需要的列,而忽略其它列。节省了读开销,中间表存储开销和数据整合开销。裁剪所对应的参数项为:hive.optimize.cp=true(默认值为真)2.2分区裁剪查询中减少不必要的分区。如:SELECT * FROM (SELECTT a,COUNT(1) FROM b...原创 2020-04-09 17:25:31 · 240 阅读 · 0 评论 -
hql问题记录-bash: !": event not found
在跑hql时出现报错信息:-bash: !": event not found原因为您所输入的命令中间包含 !,叹号,不能组成命令。应该将 !转义,即//!。或者通过like 'ziduan%'也可。...原创 2020-04-09 13:43:02 · 278 阅读 · 0 评论 -
hive like关键词模糊匹配
在mysql里面我们可以直接执行SQL匹配关键词字段select a.code,a.region_code,a.name from hangzhou a ,companyname b where a.name like %b.key%;或者类似其他的我们可以直接%你要匹配的字段%但是在hive里面不行,因为转义了,需要自定义UDF去完成这个操作!select a.code,a.regi...原创 2020-03-31 08:58:17 · 4446 阅读 · 0 评论