MapReduce中的SequenceFile和MapFile

SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般

对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好

处:

支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优)

本地化任务支持:因为文件可以被切分,因此MapReduce任务时数据的本地化情况应该是非常好的。

对key、value的长度进行了定义,(反)序列化速度非常快。

缺点是需要一个合并文件的过程,文件较大,且合并后的文件将不方便查看,必须通过遍历查看每一个小文件。


SequenceFile存储结构


对SequenceFile进行读写

Configuration configuration = new Configuration();
		FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration);
		
		//写操作 向hdfs写入文件sf
		Writer writer = SequenceFile.createWriter(fileSystem, configuration, new Path("/sf"), LongWritable.class, Text.class);
		for (int i = 0; i < 4; i++) {
			writer.append(new LongWritable(i), new Text(i + "xxxx"));
		}
		IOUtils.closeStream(writer);
/读操作
final SequenceFile.Reader reader = new SequenceFile.Reader(fs, new Path("/sf"), conf);
final LongWritable key = new LongWritable();
final Text val = new Text();
while (reader.next(key, val)) {
    System.out.println(key.get()+"\t"+val.toString());
}
IOUtils.closeStream(reader);


/**
 * 将大量小文件以key-value形式合并存储为SequenceFile 
 * key为小文件名,value为小文件内容
 * @author Administrator
 *
 */
public class SequenceFileTest2 {
	public static void main(String[] args) throws Exception {
		Configuration configuration = new Configuration();
		FileSystem fileSystem = FileSystem.get(new URI("hdfs://hadoop1:9000"), configuration);
		
		//写操作 向hdfs写入文件sf
		Writer writer = SequenceFile.createWriter(fileSystem, configuration, new Path("/sf"), LongWritable.class, Text.class);
		//遍历/usr/local/logs下以log结尾的日志文件,并且不递归遍历子文件夹
		Collection<File> listFiles = FileUtils.listFiles(new File("/usr/local/logs"), new String[]{"log"}, false);
		for (File file : listFiles) {
			//文件名为key,文件名为value
			writer.append(new Text(file.getName()), new BytesWritable(FileUtils.readFileToByteArray(file)));
		}
		IOUtils.closeStream(writer);
                
                //将SequenceFile中的小文件再分别写出,分别以原来的文件名命名
        SequenceFile.Reader reader = new SequenceFile.Reader(fileSystem, new Path("/sf"), configuration);
        Text key = new Text();
        BytesWritable value = new BytesWritable();
        while(reader.next(key, value)){
            String fileName = "/usr/local/new_logs/" + key.toString();
            File file = new File(fileName);
            FileUtils.writeByteArrayToFile(file, value.getBytes());
        }
        IOUtils.closeStream(reader);
        }
}


MapFile

MapFile是排序后的SequenceFile,通过观察其目录结构可以看到MapFile由两部分组成,分别是data和index。

index作为文件的数据索引,主要记录了每个Record的key值,以及该Record在文件中的偏移位置。在MapFile被访问

的时候,索引文件会被加载到内存,通过索引映射关系可迅速定位到指定Record所在文件位置,因此,相对

SequenceFile而言,MapFile的检索效率是高效的,缺点是会消耗一部分内存来存储index数据。

需注意的是,MapFile并不会把所有Record都记录到index中去,默认情况下每隔128条记录存储一个索引映射。当

然,记录间隔可人为修改,通过MapFIle.Writer的setIndexInterval()方法,或修改io.map.index.interval属性;

另外,与SequenceFile不同的是,MapFile的KeyClass一定要实现WritableComparable接口,即Key值是可比较的。


final Configuration conf = new Configuration();
final FileSystem fs = FileSystem.get(new URI("hdfs://hadoop0:9000/"), conf);
//写数据
final MapFile.Writer writer = new MapFile.Writer(conf, fs, "/aaa", Text.class, Text.class);
writer.append(new Text("1"), new Text("aa"));
IOUtils.closeStream(writer);
//读数据
final MapFile.Reader reader = new MapFile.Reader(fs, "/aaa", conf);
final Text key = new Text();
final Text val = new Text();
while(reader.next(key, val)) {
	System.out.println(key.toString()+"\t"+val.toString());
}






评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值