Hadoop概述

本文深入探讨Hadoop及其在大数据技术生态系统中的角色,包括数据存储、计算与资源调度的关键组件,如HDFS、MapReduce及YARN。同时,文章对比了Hadoop1.x与Hadoop2.x的主要区别,概述了大数据部门的业务流程,以及从数据来源到业务应用的完整技术生态体系。

大数据(bigdata)
指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式
才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

主要解决,海量数据的存储和分析计算问题。

1.数据存储单位
bit Byte KB MB GB TB PB EB ZB YB BB NB DB

目前大部分公司数据存储量 TB PB EB

1Byte = 8bit
1024Byte = 1KB
1024K = 1MB
1024M = 1G
1024G = 1T
1024T = 1P

2.存储
    分布式存储
3.计算
    分布式计算

分布式:
    由分布在不同主机上的进程协同在一起,才能构成整个应用。

Hadoop简介
Apache开源软件
创始人:Doug Cutting
Hadoop名称来源于Doug Cutting 儿子的玩具大象

Hadoop是有Apache基金会所开发的分布式系统基础架构。

主要解决海量数据的存储和海量数据的分析计算问题。

广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。

GFS --> HDFS
MapReduce --> MapReduce
BigTable --> HBase

Hadoop三大发行版本:
Apache 版本最原始(最基础)的版本,对于入门学习较好;
Cloudera 在大型互联网企业中用的较多;
Hortonworks 文档较好。

Hadoop的优势:
1.高可靠性:维护多个工作数据副本,所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。
2.高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点;
3.高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度;
4.高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。

Hadoop组成
1.HDFS 高可靠。高吞吐量的分布式文件系统
    NameNode 名称节点 NN 存储文件的元数据(文件名、文件目录结构、文件属性),以及每个文件的块列表和块所在的DataNode等。

    DataNode 数据节点 DN
    SecondaryNameNode 辅助名称节点 2NN

2.MapReduce 分布式的离线并行计算框架
    MR 映射和简化,编程模型
    基于yarn系统的对大数据集进行并行计算
    Map 阶段并行处理输入数据
    Reduce 阶段对Map结果进行汇总

3.YARN 作业调度与集群资源管理的框架
    ResourceManager 资源管理器 RM 处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度
    NodeManager 节点管理器 NM 单个节点上的资源管理、处理来自ResourceManager的命令、处理来自ApplicationMaster的命令。
    ApplicationMaster 数据切分、为应用程序申请资源,并分配给内部任务、监控任务与容错。
    Container 对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关信息。

4. Hadoop Common 支持其他模块的工具模块。
MapReduct 计算
Yarn 资源调度
HDFS 数据存储 

大数据技术生态体系


业务模型层    业务模型  数据可视化  业务应用

                【Zookeeper 数据平台配置和调度】

任务调度层    Oozie任务调度    azkaban 任务调度

            Spark Streaming 实时计算    Storm 实时计算
        Hive数据查询  MaHout数据挖掘  Spark Mlib 数据挖掘  Spark R 数据分析  Spark Sql数据查询
数据计算层 --    MapReduce离线计算    Spark Core 内存计算

资源管理层 --    YARN 资源管理

数据存储层 --    HDFS 文件存储    HBase 非关系型数据库

数据传输层 -- Sqoop数据传递    Flume日志收集    kafka数据队列

数据来源层 -- 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据)

大数据部门业务流程分析

产品人员提需求(统计总用户数,日活跃用户数,回流用户数)——> 数据部门搭建数据平台、分析数据指标——> 数据可视化(报表展示,邮件发送,大屏幕展示等)

 

Hadoop1.x和Hadoop2.x区别

Hadoop1.x组成

MapReduce(计算+资源调度)

HDFS(数据存储)

Common(辅助工具)

Hadoop2.x组成

MapReduce(计算)

Yarn(资源调度)

HDFS(数据存储)

Common(辅助工具)

【电动车】基于多目标优化遗传算法NSGAII的峰谷分时电价引导下的电动汽车充电负荷优化研究(Matlab代码实现)内容概要:本文围绕“基于多目标优化遗传算法NSGA-II的峰谷分时电价引导下的电动汽车充电负荷优化研究”展开,利用Matlab代码实现优化模型,旨在通过峰谷分时电价机制引导电动汽车有序充电,降低电网负荷波动,提升能源利用效率。研究融合了多目标优化思想与遗传算法NSGA-II,兼顾电网负荷均衡性、用户充电成本和充电满意度等多个目标,构建了科学合理的数学模型,并通过仿真验证了方法的有效性与实用性。文中还提供了完整的Matlab代码实现路径,便于复现与进一步研究。; 适合人群:具备一定电力系统基础知识和Matlab编程能力的高校研究生、科研人员及从事智能电网、电动汽车调度相关工作的工程技术人员。; 使用场景及目标:①应用于智能电网中电动汽车充电负荷的优化调度;②服务于峰谷电价政策下的需求侧管理研究;③为多目标优化算法在能源系统中的实际应用提供案例参考; 阅读建议:建议读者结合Matlab代码逐步理解模型构建与算法实现过程,重点关注NSGA-II算法在多目标优化中的适应度函数设计、约束处理及Pareto前沿生成机制,同时可尝试调整参数或引入其他智能算法进行对比分析,以深化对优化策略的理解。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值