hive中剔除非utf8编码的数据

最新推荐文章于 2024-11-20 14:42:57 发布

cajeep2001

最新推荐文章于 2024-11-20 14:42:57 发布

阅读量4.5k

点赞数

CC 4.0 BY-SA版权

分类专栏： hive优化文章标签： python import email 脚本扩展

本文链接：https://blog.youkuaiyun.com/cajeep2001/article/details/7854107

hive优化专栏收录该内容

5 篇文章

订阅专栏

在Hive数据导出过程中，由于数据编码不一致，导致出现编码转换错误。本文通过Python脚本来过滤掉混杂的GBK编码数据，保持UTF8编码。脚本利用UnicodeDecodeError异常来识别非UTF8字符，并在Hive中使用TRANSFORM功能结合脚本进行处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在做hive数据导出的时候，发现有很多数据行存在不一致的编码的类型，导致编码转换的时候，遇到错误，比如一行数据中又存在utf8编码的数据，又存在gbk编码的数据，而对于中文来说，gbk和utf8的编码是不一样的。所以一旦为gbk的数据用utf8进行解码的时候，会报错。因此，需要将这部分混在utf8编码数据中的gbk编码数据剔除掉。

利用python脚本，然后进行transform，来完成剔除的步骤。

代码如下，利用原理，就是进行decode解码的时候，如果解码错误，则表示非utf8字符类型。

#!/usr/bin/python
import sys
import datetime
UTF8='utf8'
OTHER='other'
for line in sys.stdin:
try:
line = line.strip()
arr = line.split('\t')
item=""
for item in arr:
item.decode(UTF8)
print UTF8+"\t"+arr[0]
except UnicodeDecodeError:
print OTHER+"\t"+arr[0]
except:
print OTHER+"\t"+arr[0]

在hive中使用如下：

SELECT
a.member_seq
from
(
select
TRANSFORM (
member_id
,member_seq
,mem_en_first_name
,mem_en_last_name
,member_status
,member_gmt_create
,mem_country_id
,country_accord_name
,mem_email)
USING 'python UTF8Decode.py'
AS code_flag,member_seq
FROM tdl_en_edm_for_eve_mem_tmp2 t1
)a
where a.code_flag='utf8'