MapReduce之普通文件转SequenceFile

本文介绍了一个Java程序,该程序能够将普通文本文件转换为Hadoop的SequenceFile格式,并将其上传到HDFS中。SequenceFile是一种二进制文件格式,支持压缩,适用于存储大量小文件。程序使用了Apache Hadoop库来实现文件的读取、压缩和写入。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

package com.uplooking.bigdata.mr.writablez.sequecefile;

import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileUtil;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.SequenceFile.Writer;
import org.apache.hadoop.io.SequenceFile.Writer.Option;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.GzipCodec;

import java.io.File;
import java.io.IOException;

/**
 * 将一个普通的文本文件转变成为一个二进制序列化SequenceFile到hdfs
 */
public class SequenceFileWriteOps {
    public static void main(String[] args) throws Exception {
        if(args == null || args.length < 2) {
            System.err.println("Parameter Errors ! Usage: <inputpath outputpath>");
            System.exit(-1);
        }
        String inputpath = args[0];
        Path outputpath = new Path(args[1]);
        Configuration conf = new Configuration();
        //需要我们写入一个SequenceFile的,则需要相应的工具进行操作---Writer
        /*
        * ops需要哪些懂得,就是要对进行压缩的文件,方式进行简要说明
        * */
        //上传路径
        Option outOption = SequenceFile.Writer.file(outputpath);
        //上传后的文件的Key的类型
        Option keyOption = SequenceFile.Writer.keyClass(Text.class);
        //上传后的文件的Value的类型
        Option valueOption = SequenceFile.Writer.valueClass(NullWritable.class);
        //采取何种压缩编码格式
//        Option compression = SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK);
        Option compression = SequenceFile.Writer.compression(SequenceFile.CompressionType.BLOCK, new GzipCodec());
        Option[] ops = new Option[]{outOption, keyOption, valueOption, compression};
        Writer writer = SequenceFile.createWriter(conf, ops);
        String content = FileUtils.readFileToString(new File(inputpath));//指定要进行序列化的文件
        writer.append(new Text(content), NullWritable.get());

        writer.close();
    }
}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值