LiaoQiang_big-优快云博客

原创数仓---建模

1

2021-11-02 11:09:56 255

原创使用sqoop从mysql导入到hive一张名叫warehouse的表引发的问题

今天,我使用sqoop导入数据的时候遇到一个很奇怪的问题,我将mysql一张名为warehouse的表导入到hive的时候,出现如下报错提示我没有hdfs改路径的写入权限?但是正常情况我写入hdfs的路径不应该是这个路径啊,难道是日志打错了?于是我重试了几次,发现还是不行;难道是sqoop出了问题?但是我导其他表也没有问题啊;那只能是这个表有问题了,表名为warehouse,我们hive的库也叫warehouse,可能是有什么冲突? 然后我换了种方式,使用sqoop导入hdfs的方式,指定导入.

2021-10-28 13:49:17 258

原创 hive读时模式

hive 加载数据的时候不会对数据进行校验,查询的时候如果发现数据类型不对会显示为null

2021-10-14 17:09:03 246

原创 hive创建永久自定义函数不生效的问题

hive自定义函数可以帮我们轻松解决很多sql不好实现的逻辑,所以偶然写写自定义函数还是很有用的. 但是我最近遇到一个问题,就是我函数写好了,使用CREATE FUNCTION default.temporary_time_combine as 'com.saas.ylz.bigdata.udf.TemporaryTimeCombine'using jar 'hdfs:///hive/udf/temperature-time-combiner-1.0-SNAPSHOT.jar' 语句创建函数,函数创建成功

2021-10-12 10:24:37 1604

原创 hive with as 和直接创建临时表的性能比较；

我之前的理解是使用with 时,就是相当于把字查询给提取出来,这样代码可读性更高,并且该子查询可以重复使用,并且相较于直接创建临时表不会落盘,这样效率会.......直到有一次,我优化一个大job,发现这个大job全是用创建临时表的方式保存中间结果,我想着这要是全部改成with的方式那效率还不提高好多???我立马开干,三下五除二就全部换成with的语句了,结果执行的时候发现居然执行不动!!原本一个小时的任务执行完成的任务,我修改了执行2.2个小时都还没执行成功!!我赶紧去yarn上看日志,发现新job生成的

2021-10-11 22:31:54 7126

原创 HIVE sparkSQL sum()over()开窗函数的效率问题

开窗函数大家都用过,其中sum()的开窗函数我们可以很好的用来求一些累加的值,我之前一直认为开窗函数的执行效率都差不多,然而有一次我使用sum开窗函数计算某个车辆每个时间累积行驶了多少距离,由于有定位数据,数据量比较大,300万左右,结果程序执行了超过一个小时都不出结果,然后我用排除法把sum换成row_number,结果秒出结果.我才发现sum的不同...

2021-09-29 16:38:00 2220 1

LiaoQiang_big的博客

原创数仓---建模

原创使用sqoop从mysql导入到hive一张名叫warehouse的表引发的问题

原创 hive读时模式

原创 hive创建永久自定义函数不生效的问题

原创 hive with as 和直接创建临时表的性能比较；

原创 HIVE sparkSQL sum()over()开窗函数的效率问题

空空如也

空空如也

原创 数仓---建模

原创 使用sqoop从mysql导入到hive一张名叫warehouse的表引发的问题

原创 hive读时模式

原创 hive创建永久自定义函数不生效的问题

原创 hive with as 和直接创建临时表的性能比较；

原创 HIVE sparkSQL sum()over()开窗函数的效率问题

空空如也

空空如也

原创数仓---建模

原创使用sqoop从mysql导入到hive一张名叫warehouse的表引发的问题