hive根据hdfs建立外表时,一般使用这种格式规范: ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
这种方式识别的默认行分隔符其实并不只是行分隔符'\n',还包括'\r','\r\n','\u0001','\u0002','\u0003'
因此有如果字段中存在'\r',可能会导致外表行数与预期不一致的增加
这种处理应该是为了兼容windows
相关的一个jira https://issues.apache.org/jira/browse/HIVE-3810
根据实践,hive 0.12依然存在这个问题
本文探讨了Hive在根据HDFS建立外表时遇到的问题,特别是当使用特定格式规范时,行分隔符不仅包括'
',还包括'
'、'
'等,这可能导致字段中存在'
'时行数与预期不符的情况。文章还提及了一个相关JIRA问题,并指出该问题在Hive 0.12版本中仍然存在。
5763

被折叠的 条评论
为什么被折叠?



