LocalFileSystem
Hadoop LocalFileSystem是客户端校验的类。在使用LocalFileSystem写文件时,会透明的创建一个.filename.crc的文件。校验文件大小的字节数由io.bytes.per.checksum属性设置,默认是512bytes,即每512字节就生成一个CRC-32校验和。.filename.crc文件会存 io.bytes.per.checksum的信息。在读取的时候,会根据此文件进行校验。在读取文件时需要验证校验和,并且如果检测到错误,LocalFileSystem还会抛出一个ChecksumException异常。 事实上LocalFileSystem是通过继承ChecksumFileSystem实现校验的工作。
校验和的计算代价是相当低的(在Java中,他们是用本地代码实现的),一般只是增加少许额外的读/写文件时间。对于大多数应用来说,付出这样的额外开销以保证数据完整性是可以接受的。此外,我们也可以禁用校验和计算,特别是在底层文件系统本身就支持校验和的时候。在这种情况下,使用RawLocalFileSystem替代LocalFileSystem。要想在一个应用中实现全局校验和验证,需要将fs.file.impl属性设置为org.apache.hadoop.fs.RawLocalFileSystem进而实现对文件URI的重新映射。
代码示例:
package com.test.io;
import java.io.IOException;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.LocalFileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RawLocalFileSystem;
public class WriteToLocal {
public static void main(String[] args) throws IOException, URISyntaxException {
Configuration conf = new Configuration();
LocalFileSystem fs = new LocalFileSystem(new RawLocalFileSystem());
fs.initialize(new URI("file:///home/peter/test1"), conf); // put the conf object to filesystem instance
OutputStream out = fs.create(new Path("file:///home/peter/test1"));
for(int i = 0; i < 512*10;i++){
out.write(97);
}
out.close();
Path file = fs.getChecksumFile(new Path("file:///home/peter/test1"));
System.out.println(file.getName());
fs.close();
}
}