
问题记录
zhangl_joe
这个作者很懒,什么都没留下…
展开
-
基于TEZ引擎的hivesql优化记录
环境说明:hive的版本:1.2,hive的引擎:TEZ一、现象描述:1、需求描述:两张表需要做笛卡尔积,这两张表的数据量为:8万左右,结果集数据量:6亿左右2、将hivesql语句提交至集群上时,发现给该任务分配的资源为:3个task,12G的内存资源,运行了10小时还是没出结果。二、问题现象分析:1、给这个任务分配更多的TASK,及内存资源(集群有充足的资源),让任务运行更快。2、排除数据倾斜情况3、map端的task数是由原表的文件数和文件大小/是否合并参数决定:.原创 2020-10-23 14:42:11 · 1230 阅读 · 0 评论 -
HIVE中处理特殊字符
一、问题描述:根据公司研发提供的加密UDF函数,进行加密(电话号码属于敏感信息需加密)后存在换行现象!(hiveudfencode:加密UDF)二、问题定位及解决步骤:1)查看加密后的字段末尾是否含有换行符,根据16进制转换的函数进行查看,发现末尾带了0D0A,就是代表\r\n2)用hive的替换函数(regexp_replace),对\r\n进行处理...原创 2020-08-18 14:13:40 · 3921 阅读 · 0 评论