一、数据概述
1.三次信息化浪潮:个人计算机,信息处理;互联网,信息传输;云计算.大数据.物联网,信息爆炸
2.大数据发展的三个阶段:萌芽期,成熟期,大规模应用期
3.数据产生方式经历三个阶段:运营式系统阶段,用户原创内容阶段,感知式系统阶段
4.4v特型:velocity,value,variety,volume
5.Jim Gray四种范式:实验,理论,计算,数据
6.大数据带来三个思维方式转变:全样而非抽样,相关而非因果,效率而非精确
7.云计算解决的两个核心问题:分布式存储,分布式处理
8.大数据包括四个方面内容:数据采集,数据存储和管理,数据处理与分析,数据安全与隐私
9.大数据4个计算模式:批处理计算(MapReduce,Spark),流计算(Flink,Storm,S4,Flume,Streams),图计算(GraphX,Pregel,Giraph),查询分析计算(Dremel,Hive,Casaandra,Impala)
10.云计算典型特征:虚拟化,多用户
云计算3个服务类型:IaaA,PaaS,SaaS
11.物联网体系架构:感知层,网络层,处理层,应用层
B,KB,MB,GB,TB,PB,EB,ZB,相差1024
12.关系大数据与云计算、物联网三者相辅相成,既有联系又有区别,云计算为大数据提供了技术基础、大数据为云计算提供用武之地,云计算为物联网提供海量数据存储能力,物联网为云计算技术提供了广阔的应用空间,物联网是大数据的重要来源,大数据技术为物联网数据分析提供支撑。
二、hadoop
DongCutting开发 核心是HDFS和MapReduce
特点:开源,基于Java开发,支持多种编程语言,具有很好的跨平台性,底层细节透明,可以部署在廉价的计算机集群上,高可靠性,高容错性,高效性,高可扩展性,运行在Linux平台上面。
1. 谷歌对应:Map reduce 对应 hadoop map reduce ,big table对hbase,GFS对应HDFS
2.hadoop一代存在单点故障问题,不支持水平拓展,资源划分不合理。
hadoop二代比一代多了YARN框架还有NameNodeHA和wire-compatibility
YARN体系结构三部分:Resource Manager,Node Manager,Application Manager
hadoop集群整体性能取决于CPU,内存,网络以及存储容量。
hadoop三种安装模式:单机模式,分布式模式,伪分布式模式。
3.hadoop集群的节点有namenode(协调集群中的数据存储),datanode(存储被拆分的数据块),job tracker(协调数据计算任务),test tracker(负责执行由JobTracker指派的任务), secondarynamenode(帮助namenode收集文件系统运行的状态信息)
4.三种shell命令方式:hadoop fs,hadoop dfs,hdfs dfs(三个都可以适用于hdfs文件系统,只有hadoop fs可以适用于任何文件系统)
三、HDFS分布式文件系统
功能:解决海量数据的分布式存储问题。
1. 文件系统为主从结构
(1)一个namenode(管理文件系统的命名空间及客户端对文件的访问,命名空间包括目录,文件,块):存储元数据于内存,保存文件,块,数据节点之间的映射关系。
【1】 一个名称节点带来的局限性包括命名空间的限制,性能的瓶颈,隔离问题,集群的可用性。
【2】名称节点的两个核心数据结构FsImage(文件系统中所有目录和文件inote的序列化形式,没有记录每个块存储在哪个数据节点,而是有名称节点将其映射在内存中),Editlog(记录增删操作)
为什么有了fsimage还有editlog?fsimage文件大,更新