spark使用自定义Hadoop的FileInputFormat读取hdfs上的数据

当遇到HDFS文件中记录跨block且存在转义换行符时,Spark默认的RecordReader无法正确处理。文章介绍了这种情况并提供了解决方案,即通过重写Hadoop的FileInputFormat类,定制记录分隔符,确保正确读取文件中的数据。

比如:一个300MB的文件,其中包含6条记录,每条记录300/6=50MB,该文件在hdfs上分了3个block,每个block为128MB,如上图,第3、6个记录跨block了。如下图所示。

inputsplit1

为了处理改文件,spark在每个数据节点上创建executor,这些executor负责读取自己的数据。

  1. Block 1 上的Executor 1 读取3条记录作为输入,其中本地读Line1、Line2,本地和远程读Line3
  2. Block 2 上的Executor 2 读取后3条记录作为输入,其中本地读Line4、Line5,本地和远程读Line5
  3. Block 3 上的Executor 3 不读取数据

上述的解释可以参考:

https://hadoopi.wordpress.com/2013/05/27/understand-recordreader-inputsplit/

https://www.ae.be/blog-en/ingesting-data-spark-using-custom-hadoop-fileinputformat/

htt

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值