HDFS的读写流程

本文详细解析了HDFS的读写流程,包括客户端如何通过FileSystem对象与NameNode交互,读取和写入数据的过程,以及在读写过程中遇到问题时的处理策略。

HDFS的读流程

  1. 客户端通过FileSystem的对象调用open()方法给namenode发送打开一个文件的请求
  2. 在namenode角度来看客户端是通过DisturbuedSystem发送到请求,namende收到请求后会验证客户端是否有权限读取该文件,该文件是否存在等一系列验证,经过验证后,namenode会返回给客户端一个FSDataInputstream流(可以定位数据副本的位置方便读取),并且返回该文件存储的副本所在位置同时按照距离客户端的远近排好序。
  3. FSDataInputstream立即连接第一个数据所在的最近的副本块,开始读取,客户端通过反复调用FSDataInputstream的read()方法将文件读入内存。
  4. 当客户端读取完一个数据块时FSDataInputstream关闭与DataNode的连接,寻找下一个块进行相同的过程知道数据都读取完毕。
  5. 客户端读取数据时是按照FSDataInputstream和DataNode的新建连接的顺序读取的,FSDataInputstream也会根据需要向namenode请求下一批数据块在哪,一旦读完就调用FSDataInputstream的close()方法关闭流
  6. 若是读取过程中datanode与FSDataInputstream通信出现问题FSDataInputstream会试着重连如果重连不成功就会寻找下一个距离最近的datanode,同时标记出问题的datanode以确保后续不会在上面读取数据,FSDataInputstream会检测数据的完整性正确性以确保读取到的数据是正确的。
    在这里插入图片描述

HDFS写流程

  1. 客户端使用FileSystem的对象调用create()方法向namenode发送请求,要求创建一个文件,
  2. DistributedFileSystem对namenode远程调用rpc创建一个文件,但是文件没有元数据在内存中没有相应的数据块
  3. namenode会检查客户端是否有权限创建文件,以及文件是否存在等一系列的检查后,若是检查通过则返回一个FSDataOuputStream对象客户端可以通过FSDataOuputStream对象调用write()方法写入文件,若是通不过则报一个异常通过异常客户端可以知道是什么错误
  4. 在写入数据时客户端将内存里的数据通过FSDataOuputStream对象写出,FSDataOuputStream对象将数据每64K打包成一个package,并且存入dataqueue(这是一个数据包队列由DataStreamer负责维护)DataStreamer的职责是挑选出适合写入的Datanode并且请求namenode分配数据块,namenode分配数据块后将这些datanod组成一个管道返回给客户端,DataStreamer将数据传给第一个datanode,第一个datanode写完后会会返回一个消息告知客户端写完,然后第一个将数据传给第二个数据块,同理第二个写完也会告知客户端,写完。
  5. 当客户端得到第一个块写完的消息后会将在dataqueue的package移动到ack queue队列中
  6. 当收到所有管道的ResponseProcessor线程发送的写入成功的信息后,ResponseProcessor会将数据包从去确认队列中删除
  7. 如果写入期间发生故障,
  8. 则会关闭管道,将确认队列的说有数据包的返回dataqueue以确保故障块后的块数据完整
  9. 将故障块标识以防止后续不断地写入,并且为能正常工作的datanode的数据块制定一个新的编号,以便故障的datanode恢复正常时可删除故障块
  10. 将剩余的能正常工作的数据块组成一个管道继续写出,
  11. 当namenode发现副本块不足时会自动调用副本策略生成新的数据块
    在一个块被写入期间可能会有多个datanode同时发生故障,但概率非常低。只要写入了dfs.namenode.replication.min的复本数(默认1),写操作就会成功,并且这个块可以在集群中异步复制,直到达到其目标复本数dfs.replication的数量(默认3)在这里插入图片描述
【电动车】基于多目标优化遗传算法NSGAII的峰谷分时电价引导下的电动汽车充电负荷优化研究(Matlab代码实现)内容概要:本文围绕“基于多目标优化遗传算法NSGA-II的峰谷分时电价引导下的电动汽车充电负荷优化研究”展开,利用Matlab代码实现优化模型,旨在通过峰谷分时电价机制引导电动汽车有序充电,降低电网负荷波动,提升能源利用效率。研究融合了多目标优化思想与遗传算法NSGA-II,兼顾电网负荷均衡性、用户充电成本和充电满意度等多个目标,构建了科学合理的数学模型,并通过仿真验证了方法的有效性与实用性。文中还提供了完整的Matlab代码实现路径,便于复现与进一步研究。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的高校研究生、科研人员及从事智能电网、电动汽车调度相关工作的工程技术人员。; 使用场景及目标:①应用于智能电网中电动汽车充电负荷的优化调度;②服务于峰谷电价政策下的需求侧管理研究;③为多目标优化算法在能源系统中的实际应用提供案例参考; 阅建议:建议者结合Matlab代码逐步理解模型构建与算法实现过程,重点关注NSGA-II算法在多目标优化中的适应度函数设计、约束处理及Pareto前沿生成机制,同时可尝试调整参数或引入其他智能算法进行对比分析,以深化对优化策略的理解。
一、基础信息 数据集名称:可回收材料目标检测数据集 图片数量: - 训练集:7,701张图片 - 验证集:733张图片 - 测试集:367张图片 - 总计:8,801张图片 分类类别: - carton(纸板):常见可回收包装材料 - metal(金属):如铝罐和铁制品等可回收金属 - papel(纸):纸张类可回收材料 - plastico(塑料):塑料瓶和容器等可回收塑料 - vidrio(玻璃):玻璃瓶和罐等可回收玻璃 标注格式:YOLO格式,包含边界框和类别标签,适用于目标检测任务 数据格式:JPEG图片,来源于实际场景 二、适用场景 智能垃圾回收系统开发: 数据集支持目标检测任务,帮助构建自动识别和分类可回收材料的AI模型,用于智能垃圾桶或回收站,提升垃圾处理效率。 环保与可持续发展应用: 集成至环保设备或移动应用,提供实时材料识别功能,促进垃圾分类和资源回收,支持绿色倡议。 学术与工业研究: 支持计算机视觉在环境科学和废物管理领域的研究,推动AI技术在环保中的创新应用。 教育与培训: 可用于学校或社区项目,作为垃圾分类教育的视觉辅助工具,提高公众环保意识。 三、数据集优势 精准标注与多样性: 标注采用YOLO格式,确保边界框定位准确,类别覆盖五种常见可回收材料,具有高度实用性。 数据规模合理: 拥有超过8,000张图片,训练集、验证集和测试集分布均衡,支持有效的模型训练和评估。 任务适配性强: 标注兼容主流深度学习框架(如YOLO系列),可直接用于目标检测模型开发,加速应用部署。 环保价值突出: 专注于可回收材料识别,有助于减少垃圾污染、促进循环经济,具有显著的社会和环境效益。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值