flume读取json格式的log文件写入hive表，趟坑记录

最新推荐文章于 2025-05-03 10:29:55 发布

原创

最新推荐文章于 2025-05-03 10:29:55 发布 · 1.8k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#flume读log写hive表

本文记录了使用Flume从JSON格式的日志文件读取并写入Hive表时遇到的问题及解决方案。主要内容包括：创建Hive桶表，注意Flume默认行长度限制为2048可能导致数据截取，测试时清除历史数据，以及Flume配置中调整deserializer.maxLineLength参数防止日志行被截断导致的JSON解析异常。

flume 读取log日志文件，写hive表

注意：

hive创建桶表；

flume读取文件，按行读取，默认行最大值为2048个长度，过长会截取。

测试阶段，注意删除写入文件目录(spoolDir)、checkpoint目录、写入的hive表记录，避免历史数据对结果的影响；

如果不是桶表：异常报错如下

Unexpected end-of-input in VALUE_STRING

由于要处理的log日志每条记录是以json形式存储，然后Agent.sink.hive.serializer = JSON 解析json，写入hive表。最开始找到的报错信息是

json解析异常：

[DEBUG - org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:178)]
org.codehaus.jackson.JsonParseException:

Unrecognized token 'nWsj1W3Zzy': was expecting 'null', 'true', 'false' or NaN
at [Source: java.io.ByteArrayInputSt

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。