hadoop学习笔记

这篇为学习hadoop的笔记,书籍来自《Hadoop构建数据仓库实战》

hadoop简介

  hadoop是一个由Apache基金会所开发的分布式系统基础架构,目前已经构成一个大数据生态。基于hadoop,可以组建单台到多台服务器的集群,来提供大数据存储和计算方案。

简单需求

  假设我们目前有一个1g的文件需要存储,使用传统的文件系统存储的话,就需要1g的存储空间,需要考虑到文件数据丢失,我们需要进行数据的备份,这时我们搭建一个集群,使得集群内的机器都会存储同样的文件。但是实际上我们不需要每一台机器都存储文件,我们只需要整个集群中每个文件都存有3个备份就行。
  hadoop的hdfs文件系统可以提供相应的解决方案。hdfs的存储原理为:假设我们有一个1g的文件,我们设定总共存储3个副本,假如集群总共有10台机器,那个只有3台机器是存储有这个文件的,假如中途存储这个文件的1台机器挂掉,hdfs的策略会复制这个文件到另一台机器上,保证整个集群中肯定有3台机器存储有这个文件。
  这样,既不需要所有机器都存储文件的副本,又能够保证文件不会丢失。
  由此引出hadoop的一些优点:高容错性使得数据能够保持稳定,高扩展性使得集群能够更加强大,分布式运算提高运算性能。

hadoop 构成

Hadoop包括以下四个基本模块:
Hadoop基础功能库:支持其他Hadoop模块的通用程序包。
HDFS:一个分布式文件系统,能够以高吞吐量访问应用的数据。
YARN:一个作业调度和资源管理框架。
MapReduce:一个基于YARN的大数据并行处理程序。
基于hadoop架构的相关存储,计算组件有:hbase, hive,spark,flink等。

hadoop 架构

一个多节点的hadoop集群架构
  hadoop的集群分为主从模式,主节点有一个Job Tracker和NameNode进程,从节点会有Task Tracker和Data Node进程。NameNode负责保存文件系统的索引,DataNode负责数据存储和操作,Job Tracker负责作业间的节点调度,Task Tracker负责具体节点的任务计算。

HDFS模块

  HDFS是一个运行在通用硬件设备之上的分布式文件系统。HDFS是高度容错的,在廉价的硬件上部署。HDFS提供以高吞吐量访问应用数据的能力,非常适合拥有大数据集的应用。
  HDFS命名空间的元数据由NameNode进程负责存储,元数据保存有相应的文件的所在节点的索引,备份数量等。文件的打开,关闭,重命名操作通过NameNode来执行。NameNode通过一个叫做FsImage的文件存储所有整个hdfs文件的命名空间,包括数据块和文件映射关系,文件属性等。运行NameNode的节点是HDFS的主节点。
  数据的实际存储由DataNode进程负责,运行DataNode的节点成为从节点,又叫工作节点,依照NameNode的指令执行数据块的创建,删除,复制操作。
   数据存储过程:HDFS会把文件分解成多个数据块,每个数据块存储在不同的工作节点中,然后每个数据块会有多个备份,这个备份由复制因子指定。NameNode会周期性的检测DataNode的心跳,来检验DataNode是否正常工作,如果不正常,则会根据元数据信息。把该DataNode都是数据块复制到其他可用工作节点,后面如果重新恢复了工作节点的心跳,而该工作节点的数据正常的话,会删除多余的数据来保证数据备份都是固定的。这种机制使得文件系统能够稳定健壮。

内容概要:本文介绍了一个基于多传感器融合的定位系统设计方案,采用GPS、里程计和电子罗盘作为定位传感器,利用扩展卡尔曼滤波(EKF)算法对多源传感器数据进行融合处理,最终输出目标的滤波后位置信息,并提供了完整的Matlab代码实现。该方法有效提升了定位精度与稳定性,尤其适用于存在单一传感器误差或信号丢失的复杂环境,如自动驾驶、移动采用GPS、里程计和电子罗盘作为定位传感器,EKF作为多传感器的融合算法,最终输出目标的滤波位置(Matlab代码实现)机器人导航等领域。文中详细阐述了各传感器的数据建模方式、状态转移与观测方程构建,以及EKF算法的具体实现步骤,具有较强的工程实践价值。; 适合人群:具备一定Matlab编程基础,熟悉传感器原理和滤波算法的高校研究生、科研人员及从事自动驾驶、机器人导航等相关领域的工程技术人员。; 使用场景及目标:①学习和掌握多传感器融合的基本理论与实现方法;②应用于移动机器人、无人车、无人机等系统的高精度定位与导航开发;③作为EKF算法在实际工程中应用的教学案例或项目参考; 阅读建议:建议读者结合Matlab代码逐行理解算法实现过程,重点关注状态预测与观测更新模块的设计逻辑,可尝试引入真实传感器数据或仿真噪声环境以验证算法鲁棒性,并进一步拓展至UKF、PF等更高级滤波算法的研究与对比。
内容概要:文章围绕智能汽车新一代传感器的发展趋势,重点阐述了BEV(鸟瞰图视角)端到端感知融合架构如何成为智能驾驶感知系统的新范式。传统后融合与前融合方案因信息丢失或算力需求过高难以满足高阶智驾需求,而基于Transformer的BEV融合方案通过统一坐标系下的多源传感器特征融合,在保证感知精度的同时兼顾算力可行性,显著提升复杂场景下的鲁棒性与系统可靠性。此外,文章指出BEV模型落地面临大算力依赖与高数据成本的挑战,提出“数据采集-模型训练-算法迭代-数据反哺”的高效数据闭环体系,通过自动化标注与长尾数据反馈实现算法持续进化,降低对人工标注的依赖,提升数据利用效率。典型企业案例进一步验证了该路径的技术可行性与经济价值。; 适合人群:从事汽车电子、智能驾驶感知算法研发的工程师,以及关注自动驾驶技术趋势的产品经理和技术管理者;具备一定自动驾驶基础知识,希望深入了解BEV架构与数据闭环机制的专业人士。; 使用场景及目标:①理解BEV+Transformer为何成为当前感知融合的主流技术路线;②掌握数据闭环在BEV模型迭代中的关键作用及其工程实现逻辑;③为智能驾驶系统架构设计、传感器选型与算法优化提供决策参考; 阅读建议:本文侧重技术趋势分析与系统级思考,建议结合实际项目背景阅读,重点关注BEV融合逻辑与数据闭环构建方法,并可延伸研究相关企业在舱泊一体等场景的应用实践。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值