flume 读取log日志文件,写hive表
注意:
hive创建桶表;
flume读取文件,按行读取,默认行最大值为2048个长度,过长会截取。
测试阶段,注意删除写入文件目录(spoolDir)、checkpoint目录、写入的hive表记录,避免历史数据对结果的影响;
如果不是桶表:异常报错如下
Unexpected end-of-input in VALUE_STRING
由于要处理的log日志每条记录是以json形式存储,然后Agent.sink.hive.serializer = JSON 解析json,写入hive表。最开始找到的报错信息是
json解析异常:
[DEBUG - org.apache.hive.hcatalog.data.JsonSerDe.deserialize(JsonSerDe.java:178)]
org.codehaus.jackson.JsonParseException:Unrecognized token 'nWsj1W3Zzy': was expecting 'null', 'true', 'false' or NaN
at [Source: java.io.ByteArrayInputSt

本文记录了使用Flume从JSON格式的日志文件读取并写入Hive表时遇到的问题及解决方案。主要内容包括:创建Hive桶表,注意Flume默认行长度限制为2048可能导致数据截取,测试时清除历史数据,以及Flume配置中调整deserializer.maxLineLength参数防止日志行被截断导致的JSON解析异常。
最低0.47元/天 解锁文章
609

被折叠的 条评论
为什么被折叠?



