
hive
文章平均质量分 85
date-date
这个作者很懒,什么都没留下…
展开
-
impala 自定义函数
需求:实现与oracle 过滤方法相同的功能oracle 过滤方法: FUNCTION F_CHANGE_CHR(V_NAME VARCHAR2) RETURN VARCHAR2 IS RESULT VARCHAR2(200); BEGIN RESULT := REGEXP_REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLAC原创 2020-11-27 18:15:03 · 1980 阅读 · 0 评论 -
Top N 问题(MR,Hive,Mysql)
前言:仅仅针对权威指南的吐槽,可跳过。说到这个问题实在是让人崩溃,开始看hadoop权威指南中文第四版中的9.2.4案例,求每年的最高温,要求年份按照升序,温度降序。针对组合键告诉我自定义分区只能保证每一个 reduce 接受一个年份的所有记录,而在一个分区之内,reduce 仍是通过建进行分组的分区,所以应该自定义分组。但是自定义分组前后结果配图竟然完全一样!?这是什么迷惑行为。此外,针对分区分组之后reduce 方法中直接使用context.write(key,NullWriteable.get()原创 2020-05-09 08:58:53 · 271 阅读 · 0 评论 -
hive 错误记录
本博客用于记录在工作中遇到的错误,以作备忘,如有错误,欢迎指正。谢谢!1.SemanticException [Error 10146]: Cannot truncate non-managed table test_null.truncate table test_null;//test_null是一个外部表truncate 不能删除外部表数据。原因:内部表数据由hive自身管理,...原创 2020-05-09 09:18:27 · 532 阅读 · 0 评论 -
hive 学习使用
hive建表说明:目前我们建表主要使用两种方式,默认的text格式和orc格式。orc格式采用列式存储方式,可以较好的减少磁盘IO。orc增加了轻量级的索引,默认采用ZLIB压缩,有很好的压缩比。使用场景:每天上G的数据建议采用ORC。数据量比较小的话可以自由选择text和orc两种方式。hive 小文件处理说明:解决方式分为两种。1)控制每个任务处理的最小数据量 2)输出结果控制...原创 2018-12-18 18:27:41 · 154 阅读 · 0 评论 -
连接多对多问题
需求:针对同一个广告位拆分出deeplink数据与非deeplink数据错误代码: select ${day}, case when tb3.adslot_type=1 then '横幅'when tb3.adslot_type=2 then '插屏' when tb3.adslot_type=3 then '开屏' when tb3.adslot_type=4 then...原创 2019-04-05 17:18:12 · 273 阅读 · 0 评论