split大小设置:
关于分片大小的设计,分片大小不能大于block大小,不然从多个block拉取数 据,增加磁盘IO,降低并行度,违反了mapreduce的设计原则。分片大小计算公式:
splitSize = Max(splitMinSize, Min(splitMaxSize, blockSize))
splitMinSize默认为1,并且强制为1,除非修改hadoop源代码
splitMaxSize如果不设置,默认为 long 的最大值
结果必定是一个 不大于 blockSize的值。
切分纯文本时对某一行跨两个分片这种情况
参考下面的文章