
MapReduce
奋斗的憨憨小S
这个作者很懒,什么都没留下…
展开
-
2020-9-22
原创 2020-09-22 15:51:18 · 102 阅读 · 0 评论 -
MapReduce工作流程
Shuffle机制 map方法之后,reduce之前的数据处理过程叫shuffle(洗牌) 分区 Partition分区: 默认分区是根据key的hashCode对ReduceTasks个数取模得到的,用户没法控制哪个key存储到哪个分区。原创 2020-07-30 08:52:48 · 113 阅读 · 0 评论 -
MapReduce序列化
1.什么是序列化: 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘和网络传输 反序列化是将收到的字节序列或者是磁盘的持久化数据,转换成内存中的对象。 2.为什么要序列化: 序列化可以存储活的对象,可以将活的对象发送到远程计算机 3.数据块:Block是HDFS物理上把数据分成一块一块的。 数据切片():只是在逻辑上对输入进行切片,并不会在磁盘上将其切分成片进行存储。 Map并行度,MapTask FileInputFormat切片机制: 切片数与MapTask数目一样 切片大原创 2020-07-25 22:24:59 · 321 阅读 · 0 评论 -
MapReduce实际操作
1.在pom.xml中添加依赖 <build> <plugins> <plugin> <artifactId>maven-compiler-plugin</artifactId> <version>2.3.2</version> <configuration> <source>1.8</source> <tar原创 2020-07-21 22:07:22 · 113 阅读 · 0 评论 -
MapReduce简介
打原创 2020-07-20 10:58:59 · 304 阅读 · 0 评论