一.大数据本质
(1)数据的存储:分布式文件系统…HDFS:Hadoop Distributed File System
(2)数据的计算:分布式计算
二.解决大数据存储
分布式文件系统(HDFS来源于GFS)
搭配HDFS,至少3台机器全分布
三.Hadoop出现的前提环境
概念的出现
1.分布式文件系统
2.分布式计算框架Mapreduce
四.起源
谷歌的三篇论文:
GFS:分布式存储系统
Mapreduce:分布式计算框架
BIGtable
Hadoop继承了谷歌的文件系统
使用以下三个:HDFS
MAPReduce
Hbase
五.与其他分布式比较
1.集群数据首先进行分布式存储
2.集群上通过HDFS分布式文件系统,把数据复制多份,保证数据安全
3.简单易用,扩展容易
六.版本
Hadoop1x版本中核心组件为HDFS,MAPReduce
Hadoop2x新增YARN
七.YARN
1.云操作系统,可以理解为资源管理器,管理集群中的资源。在增加了YARN操作系统之后,MapReduce任务可以跑在YARN平台上,并且实现map reduce任务的管理。
也可以通过YARN平台运行spark。包括spark可读取hdfs的数据文件,兼容性更好。
八.Hadoop生态圈介绍
根据数据来源来分。第一种是,企业内部的数据可分为业务数据和应用服务器日记。
业务数据保存在关系型数据库中。应用型服务器保存在日记文件中,是一种结构化数据。
第2种是通过外部渠道获得的。比如用户的行为记录,如网上购物的浏览情况,搜索的关键字等。是通过推荐系统来实现。
第3种是一种爬虫技术,属于非结构化数据。
组件:hive数据的清洗
sqoop:数据的导入导出
flume:日志收集工具
hbase:存储
hdfs
mapreduce
zookeeper:集群的一致性。
九.Hadoop的使用案例。
用于数据分析。
1.银行和信用卡公司进行欺诈性检测。
2.社交媒体的市场分析。
3.电商网站的购物模式分析,用户行为分析。
4.城市发展的交通模式识别。
372

被折叠的 条评论
为什么被折叠?



