大数据原理-基础笔记

一、数据概述

1.三次信息化浪潮:个人计算机,信息处理;互联网,信息传输;云计算.大数据.物联网,信息爆炸

2.大数据发展的三个阶段:萌芽期,成熟期,大规模应用期

3.数据产生方式经历三个阶段:运营式系统阶段,用户原创内容阶段,感知式系统阶段

4.4v特型:velocity,value,variety,volume

5.Jim Gray四种范式:实验,理论,计算,数据

6.大数据带来三个思维方式转变:全样而非抽样,相关而非因果,效率而非精确

7.云计算解决的两个核心问题:分布式存储,分布式处理

8.大数据包括四个方面内容:数据采集,数据存储和管理,数据处理与分析,数据安全与隐私

9.大数据4个计算模式:批处理计算(MapReduce,Spark),流计算(Flink,Storm,S4,Flume,Streams),图计算(GraphX,Pregel,Giraph),查询分析计算(Dremel,Hive,Casaandra,Impala)

10.云计算典型特征:虚拟化,多用户

云计算3个服务类型:IaaA,PaaS,SaaS

11.物联网体系架构:感知层,网络层,处理层,应用层

B,KB,MB,GB,TB,PB,EB,ZB,相差1024

12.关系大数据与云计算、物联网三者相辅相成,既有联系又有区别,云计算为大数据提供了技术基础、大数据为云计算提供用武之地,云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间,物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑。

二、hadoop

   DongCutting开发        核心是HDFS和MapReduce

 特点:开源,基于Java开发,支持多种编程语言,具有很好的跨平台性,底层细节透明,可以部署在廉价的计算机集群上,高可靠性,高容错性,高效性,高可扩展性,运行在Linux平台上面。

1. 谷歌对应:Map reduce 对应 hadoop map reduce ,big table对hbase,GFS对应HDFS

 2.hadoop一代存在单点故障问题,不支持水平拓展,资源划分不合理。

 hadoop二代比一代多了YARN框架还有NameNodeHA和wire-compatibility

 YARN体系结构三部分:Resource Manager,Node Manager,Application Manager

 hadoop集群整体性能取决于CPU,内存,网络以及存储容量。

 hadoop三种安装模式:单机模式,分布式模式,伪分布式模式。

 3.hadoop集群的节点有namenode(协调集群中的数据存储),datanode(存储被拆分的数据块),job tracker(协调数据计算任务),test tracker(负责执行由JobTracker指派的任务), secondarynamenode(帮助namenode收集文件系统运行的状态信息)

 4.三种shell命令方式:hadoop fs,hadoop dfs,hdfs dfs(三个都可以适用于hdfs文件系统,只有hadoop fs可以适用于任何文件系统)

 三、HDFS分布式文件系统

 功能:解决海量数据的分布式存储问题。

1. 文件系统为主从结构

 (1)一个namenode(管理文件系统的命名空间及客户端对文件的访问,命名空间包括目录,文件,块):存储元数据于内存,保存文件,块,数据节点之间的映射关系。

【1】 一个名称节点带来的局限性包括命名空间的限制,性能的瓶颈,隔离问题,集群的可用性。

 【2】名称节点的两个核心数据结构FsImage(文件系统中所有目录和文件inote的序列化形式,没有记录每个块存储在哪个数据节点,而是有名称节点将其映射在内存中),Editlog(记录增删操作)

 为什么有了fsimage还有editlog?fsimage文件大,更新

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值