hadoop学习笔记之IO

本文介绍了Hadoop中关于本地文件及HDFS的数据校验机制,包括不同情况下的校验和检查;阐述了如何在MapReduce中进行数据压缩,并解释了Hadoop特有的Writable序列化机制及其用途。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一 IO中的数据检查

    1、本地文件中的IO 检查

      当hadoop创建一个本地文件时,会在同一文件夹下创建一个隐藏的问价.filename.src文件,记录该文件的校验和,原文件每512字节生成一个32位的校验和,可在src/core/core-default.xml中通过修改io.bytes.per.checksum的大小来修改。也可通过修改该xml文件中的fs.file.impl属性来进制默认为LocalFileSystem,改为RawLocalFileSystem即可禁止。(因为该类型的文件系统自身支持校验和,就不需要hadoop的这部分功能了)如果hadoop发现了校验错误,会把问题文件以及校验和移动到一个叫bad_files的目录下。

    2、hdfs中的IO检查

    hdfs会在三种情况下进行检验校验和

    (1)DateNode从客户端或者其他DataNode接受数据后,存储数据前

    (2)客户端读取DataNode上的数据时

    (3)DataNode后台守护进程在定期监测时

  二、hadoop中的压缩

     在mapreduce中进行数据压缩,只需加入几行代码

    conf.setBoolean("mapred.compress.map.output",true);//compress the output of the result of map

   conf.setBoolean("maprd.output.compress",true);//compress the output of the final result

   conf.setIfUnset("maprd.output.compression,type",true);//set the type of compress

   conf.setClass("mapred.output,compression,codec",GzipCodec.Class,CompressionCodec.class);

三、数据中的IO序列化操作

     序列化是将对象转换成字节流的方法,有两个目的

    进程间通信(hadoop采用rpc作为进程组件间通信的进制

    数据持久性存储

    hadoop没有采用java的序列化机制,而是采用自己实现的Writables机制

    1、Writable类

     该类定义了Hadoop中的基本数据类型极其操作

    该类只有两个方法

     write(DataOutput output)//如何将当前对象写入字节流中

    readFilelds(DataInput  in)//如何从字节流中读取当前对象的fields以构造当前对象

   DataInput和DataOutput是java定义的接口

   它们有readxxx、writexxx方法,简单的说就是从当前字节流中读取若干个字节赋给一个java基本类型并返回它

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值