weixin_47781089-优快云博客

原创 hadoop-mr-切片

数据切片机制首先说一下数据切片和数据块的区别：数据切片是在**逻辑上对数据进行分片**，并**不改变数据的存储方式**。一个mr任务的map阶段的并行度是由客户端提交job时的切片数决定的。一个切片一个maptask处理，而数据库是在物理上把数据分成一片一片的。再说一下他们的大小，数据块的大小是128MB,这个是由磁盘传输效率所控制的。而数据切片的数据大小一般和数据块的大小是一样的。这是因为有这么一个**yarn优先原则**：yarn会尽量在数据块的本地启动map task,若切片大小和数据块大小不一

2021-03-23 15:54:06 519

原创 hadoop-mr编程2-序列化FlowBean

序列化类型FlowBeanimport org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class FBean implements Writable { private long upFlow; private long downFlow; private long sumFlow

2021-03-23 15:11:33 394

原创 hadoop-mr编程1-WordCount

编程题1：编写一个WordCount程序Mapperimport org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WcountMapper extends Mappe

2021-03-11 15:47:31 188

原创 hadoop--mapreduce介绍

概述mapruduce是一个分布式运算程序的框架，核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并行运行在hadoop集群上。优点易于编程良好拓展高容错海量数据离线处理缺点不擅长实时计算不擅长流失计算不擅长有向图计算核心思想一个完整的maprudece程序在分布式运行时有三类实例进程：MrAppMaster：负责整个程序的过程调度及状态协调maptask : 负责ma盘阶段的整个数据处理流程reducetask:负责reduce阶段的整个数

2021-03-11 15:21:35 204

原创 hadoop:hdfs-dn

dn工作机制当dn启动后向nn注册，然后nn向dn发送注册成功，之后dn每一个周期上传块的信息(数据长度，校验和，时间戳)。Dn每三秒发送一次心跳，返回结果中包含对该dn的命令，若十分钟没有收到心跳，则认为该节点不可用。数据完整性的保证1. 当dn读取block的时候，它会计算checksum2. 如果计算后的checksum,与block创建时值不一样，说明block已经损坏3. client读取其他Dn上的block4. Dn在其文件创建后周期验证checksum小文档存储Hdfs存储

2021-03-11 15:06:30 169

原创 hadoop:hdfs-nn和2nn

nn和2nn的关系他们之间的关系就是 2nn是帮nn将edits.log合并成 fsimage。首先元数据是保存在nn内存中的，这就面临一个持久化的问题，hadoop的持久化策略类型与redis，redis的RDB就是讲内存中的状态保存一份到磁盘，生成慢但是加载高效。redis的AOF就是讲数据的结算流程记录记录一份到磁盘，生成快，但是加载教慢。然后hadoop的fsimage类型与RDB，是内存的镜像，持久化元数据时候，只能读不能写，hadoop的edits.log记录了hadoop所有元数据的变动，

2021-03-11 14:52:24 411

原创 Hadoop:hdfs读写流程

hdfs写数据流程比如上传一个200MB文件，首先hdfs客户端会创建一个DistributedFileSystem实例，然后在这个实例中会创建一个DFSClient,而DistributedFileSystem中的绝大多数操作是有Dfsclient来完成的，主要是因为DFSclient负责与namemnode的通讯,然后客户端向namenode会请求上传数据，然后namenode会检查文件是否存在同名文件，然后检查该客户端是否具有上传权限。然后nanenode会响应客户端可以上传文件，之后客户端会请求

2021-03-11 10:07:22 128

原创 Hadoop:hdfs块大小

块大小的确定根据《hadoop权威指南》中介绍，块的大小主要是有目前的磁盘传输效率决定的，书中假设了若寻址时间为10ms，然而寻址时间为传输时间的十分之一为最佳，那么传输时间为1s，目前的传输速率大概就是100mb/s，所以块的大小为124mb，随着磁盘的传输效率越快，这个值也会增加。块大小过小1.增加硬盘的寻址时间，因为hdfs是应对大数据的，不适合存储小文件，小文件过多会增加硬盘的寻址时间2.增加了namenode的内存消耗，数据块大小过小，数据块数据增加，那么需要维护的数据块信息就会增多，从而

2021-03-10 16:02:00 1008

原创 Hadoop: hdfs介绍

概述hdfs是一个分布式文件管理系统，一台机器可以管理多个机器上的数据文件，适用于一次写入多次写入的场景。但是不支持文件的随机修改，只能对文件进行追加功能，适用appentofile关键字。若想修改文件只能是先下载然后修改后再上传。优点1.高容错性：多副本机制，体现在两方一个是数据自动保存多副本，另一个就是副本丢失可以自动恢复。2.大数据：适合处理大规模的数据，之后就是对机器性能要求不高缺点1.慢：不支持点延迟的数据访问。2.对小文件的执行不太好，存储大量小文件会占用大量内存去存储小文件的文件

2021-03-10 15:44:15 130

原创 Hadoop:简单介绍

**概述**Hadoop是apache公司旗下一个分布式基础架构，主要解决大数据存储和计算问题，是谷歌公司三篇论文的具体实现（gfs-hadoop,mapreduce-mr,bigtable--hbase）两个版本1.x版本的mapreduce既负责计算又负责资源的调度。2.x版本将MapReduce的资源调度功能分离出来只负责计算，然后这个资源调度模块就是yarn，yarn不仅可以调度内部资源，还可以调度外部资源1.x和2.x的版本存储都是使用 hdfs三大发行版本：apache – 最

2021-03-10 15:29:22 103

weixin_47781089的博客