
hive
hive积累
Anla Likes Sunshine
Be a creator.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
报表需求复盘
一、关于Impala一步一步理解Impala query profile(一)一步一步理解Impala query profile(二)一步一步理解Impala query profile(三)一步一步理解Impala query profile(四)原创 2021-10-29 18:27:40 · 239 阅读 · 0 评论 -
Airflow 报删除分区任务错误
Airflow 报删除分区任务错误:Error: Error while compiling statement: FAILED: RuntimeException MetaException(message:Invalid partition key & values; keys [xxx, xxx, is_archived, ], values [xxx, xxx, ]) (state=42000,code=40000)1、查看hive元数据:mysql -hxxx -uxxx -pxxx原创 2021-09-15 17:16:25 · 607 阅读 · 0 评论 -
pgsql到hql的转换
工作中,遇到要从已有的pgsql 转移到hive 中,下面总结一些用到的转换。字符定位pgsql: position('市' in locationField) hql: instr(locationField, '市')2.hive只支持全表操作,pg支持指定记录操作。pgsql: update set field=newValue where field in ... hq...原创 2020-04-29 14:10:54 · 575 阅读 · 0 评论 -
Hive压缩方法的选择
(以下内容主要为读《Hive编程指南》后的小小总结。1.背景尽管hadoop 的文件系统支持对于非压缩数据的线性扩展存储,但是对数据进行压缩还是有很大好处的—节约磁盘空间、增加吞吐量和性能(通过减少载入内存的数据量而提高IO吞吐量会更加提高网络传输性能)。当然,文件压缩过程和解压缩过程会增加CPU开销。压缩作用于不同类型的任务,影响是不一样的。对于:IO密集型,可以以提高性能。Hadoop...原创 2020-04-29 14:08:31 · 502 阅读 · 0 评论 -
hive嵌套if使用场景
工作遇到一个场景是,给表导入数据,其中字段 filed1 与 field2 的赋值比较复杂:如果 field1 满足条件等于C11,则 field1 赋值为 V11 且 field2 赋值为 V21;表数据的 field2 内容正则替换为 V22;如果field1 满足条件等于 V11,则 field1 赋值为 V12 且 field2 赋值为 V23。流程图如下:hql语句可写为...原创 2020-04-24 18:19:45 · 1233 阅读 · 0 评论 -
爆炸函数使用提醒
一般爆炸函数explode是结合lateral view使用的,这周工作遇到一个场景类似:表A:结果表:因为结果表含多列需爆炸源的不同字段,加上没用过多个lateral view连接,理所当然觉得是可以实现的,于是编写出下面的HQL(认为修改文件类型即只需要可获取结果表-即运行三次此HQL即可):select count(distinct 角色1),count(distinct 角色2...原创 2020-04-17 15:36:44 · 909 阅读 · 0 评论 -
hive常用函数
hive常用函数:查看函数用法:desc function 函数名;desc function extended 函数名;获取array数组长度:size函数select **size**(collect_list(field)) from table;替换字符串中匹配上的内容:regexp_replace函数regexp_replace(str,regexp, rep)rege...原创 2020-04-13 17:31:12 · 804 阅读 · 0 评论 -
hive去重方式
hive去重方式1.distinct 去重字段列表特点:对distinct后面的字段列表去重,无参考系select distinct case_id, role, judgename from judgeInfo;2.row_number() over(partition by 去重字段列表 order by 参考系字段)特点:有参考系,即对某字段排序,取序号为特点值的记录。如,去...原创 2020-04-11 18:26:51 · 416 阅读 · 0 评论 -
hive调优
检测hadoop支持的压缩方式:bin/hadoop checknative压缩参数在哪里配置:mapred-site.xml 或者 命令行参数配置参数调优如何开启map输出阶段压缩背景:map完产生了很多中间文件,被保存在磁盘上,然后等待reduce通过网络来拉取,如果开启map输出阶段压缩,可以减少Map和Reduce间的数据传输量。1)开启hive中间传输数据压缩功能set h...原创 2020-02-17 04:30:09 · 311 阅读 · 0 评论 -
Hive函数collect_set、concat_ws、concat、if
hive查看函数声明:desc functions 函数名;collect_set函数collect_set(x) - Returns a set of objects with duplicate elements eliminated翻译:collect_set(x)-返回一组删除了重复元素的对象图1.只允许一个入参,参数可为字段,可为常量。图2.案例图3 4.返回值是数组 a...原创 2020-02-03 22:29:07 · 773 阅读 · 0 评论 -
hive数据存储与压缩
存储文件压缩比总结:ORC > Parquet > textFile存储文件的查询速度总结:(select count(*))ORC > TextFile > Parquet存储方式和压缩总结:在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。压缩方式一般选择snappy。1.hive创建表:create table log_t...原创 2020-02-11 22:19:00 · 384 阅读 · 0 评论