LocalFileSystem

本文详细解析了Hadoop中LocalFileSystem的校验机制,包括如何在写入文件时生成校验和文件,以及在读取时如何利用这些信息确保数据的完整性。同时介绍了如何禁用校验和计算,以及使用RawLocalFileSystem替代的情况。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

LocalFileSystem

      Hadoop LocalFileSystem是客户端校验的类。在使用LocalFileSystem写文件时,会透明的创建一个.filename.crc的文件。校验文件大小的字节数由io.bytes.per.checksum属性设置,默认是512bytes,即每512字节就生成一个CRC-32校验和。.filename.crc文件会存 io.bytes.per.checksum的信息。在读取的时候,会根据此文件进行校验。在读取文件时需要验证校验和,并且如果检测到错误,LocalFileSystem还会抛出一个ChecksumException异常。 事实上LocalFileSystem是通过继承ChecksumFileSystem实现校验的工作。

校验和的计算代价是相当低的(在Java中,他们是用本地代码实现的),一般只是增加少许额外的读/写文件时间。对于大多数应用来说,付出这样的额外开销以保证数据完整性是可以接受的。此外,我们也可以禁用校验和计算,特别是在底层文件系统本身就支持校验和的时候。在这种情况下,使用RawLocalFileSystem替代LocalFileSystem。要想在一个应用中实现全局校验和验证,需要将fs.file.impl属性设置为org.apache.hadoop.fs.RawLocalFileSystem进而实现对文件URI的重新映射。

 

代码示例:


package com.test.io;
 
import java.io.IOException;
import java.io.OutputStream;
import java.net.URI;
import java.net.URISyntaxException;
 
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.LocalFileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RawLocalFileSystem;
 
 
public class WriteToLocal {
	
	public static void main(String[] args) throws IOException, URISyntaxException {
		Configuration conf = new Configuration();
		LocalFileSystem fs =  new LocalFileSystem(new RawLocalFileSystem());
		fs.initialize(new URI("file:///home/peter/test1"), conf); // put the conf object to filesystem instance
		OutputStream out = fs.create(new Path("file:///home/peter/test1"));
		for(int i = 0; i < 512*10;i++){
			out.write(97);
		}
		out.close();
		Path file = fs.getChecksumFile(new Path("file:///home/peter/test1"));
		System.out.println(file.getName());
		fs.close();
	}
 
}

 

Loading MVTec LOCO pcb4 (train) 11111111111111111111111 datasets/mvtec_loco_anomaly_detection/ 222 datasets/mvtec_loco_anomaly_detection/pcb4/train 333 ['good'] Loading MVTec LOCO pcb4 (test) 222 datasets/mvtec_loco_anomaly_detection/pcb4/test 333 ['good', 'logical_anomalies', 'structural_anomalies'] Loading MVTec LOCO pcb4 (validation) 222 datasets/mvtec_loco_anomaly_detection/pcb4/validation 333 ['good'] Loading ImageNet Traceback (most recent call last): File "/content/drive/MyDrive/CSAD-main/CSAD.py", line 564, in <module> csad = CSAD(config) ^^^^^^^^^^^^ File "/content/drive/MyDrive/CSAD-main/CSAD.py", line 161, in __init__ self.penalty_set = ImageNetDataset(penalty_transform) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/content/drive/MyDrive/CSAD-main/data_loader.py", line 171, in __init__ self.dataset = hf_load_dataset('Maysee/tiny-imagenet', split='train') ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.11/dist-packages/datasets/load.py", line 2149, in load_dataset ds = builder_instance.as_dataset(split=split, verification_mode=verification_mode, in_memory=keep_in_memory) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.11/dist-packages/datasets/builder.py", line 1173, in as_dataset raise NotImplementedError(f"Loading a dataset cached in a {type(self._fs).__name__} is not supported.") NotImplementedError: Loading a dataset cached in a LocalFileSystem is not supported.
最新发布
05-16
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值