MapReduce序列化

最新推荐文章于 2024-05-02 10:01:19 发布

奋斗的憨憨小S

最新推荐文章于 2024-05-02 10:01:19 发布

阅读量327

点赞数 1

分类专栏： MapReduce 文章标签：大数据

本文链接：https://blog.youkuaiyun.com/weixin_43796131/article/details/107585994

版权

MapReduce 专栏收录该内容

5 篇文章

订阅专栏

1.什么是序列化：
序列化就是把内存中的对象，转换成字节序列（或其他数据传输协议）以便于存储到磁盘和网络传输
反序列化是将收到的字节序列或者是磁盘的持久化数据，转换成内存中的对象。
2.为什么要序列化：
序列化可以存储活的对象，可以将活的对象发送到远程计算机
3.数据块：Block是HDFS物理上把数据分成一块一块的。
数据切片()：只是在逻辑上对输入进行切片，并不会在磁盘上将其切分成片进行存储。
Map并行度，MapTask
FileInputFormat切片机制：
切片数与MapTask数目一样
切片大小默认为128M
切片对每一个文件单独切片
不管文件多小，都会是一个单独的切片，就会交给一个MapTask
CombineTextInputFormat切片机制：
用于小文件过多，可以把多个小文件逻辑上鬼挂到一个切片中交给一个MapTask
在这里插入图片描述
默认情况下使用的是Text
InputFormat切片机制：
如果想用CombineTextInputFormat：则在Driver运行文件中第5步

job.setInputFormatClass(CombineTextInputFormat.class)
CombineTextInputFormat.setMaxINputSplitSize(job,20971520)//虚拟存储切片最大值设置为20M

FileInputFormat实现类：

1.TextInputFormat：键是存储该行在整个文件中的起始字节偏移量，LongWritable类型，值是这行的内容，不包括任何行终止符（换行符和回车符）Text类型
举个例子 shizhenqi shizhenqi
ss ss
v
<0,shizhenqi shizhenqi>说明有18个字节
<19,ss ss> 从第19个字节偏移量开始，到第21个字节
<22,v>从第22字节偏移量开始