大数据学习第一天

一.大数据本质
(1)数据的存储:分布式文件系统…HDFS:Hadoop Distributed File System

(2)数据的计算:分布式计算

二.解决大数据存储
分布式文件系统(HDFS来源于GFS)
搭配HDFS,至少3台机器全分布

三.Hadoop出现的前提环境
概念的出现
1.分布式文件系统
2.分布式计算框架Mapreduce

四.起源
谷歌的三篇论文:
GFS:分布式存储系统
Mapreduce:分布式计算框架
BIGtable
Hadoop继承了谷歌的文件系统
使用以下三个:HDFS
MAPReduce
Hbase

五.与其他分布式比较
1.集群数据首先进行分布式存储
2.集群上通过HDFS分布式文件系统,把数据复制多份,保证数据安全
3.简单易用,扩展容易

六.版本
Hadoop1x版本中核心组件为HDFS,MAPReduce
Hadoop2x新增YARN

七.YARN
1.云操作系统,可以理解为资源管理器,管理集群中的资源。在增加了YARN操作系统之后,MapReduce任务可以跑在YARN平台上,并且实现map reduce任务的管理。
也可以通过YARN平台运行spark。包括spark可读取hdfs的数据文件,兼容性更好。

八.Hadoop生态圈介绍
根据数据来源来分。第一种是,企业内部的数据可分为业务数据和应用服务器日记。
业务数据保存在关系型数据库中。应用型服务器保存在日记文件中,是一种结构化数据。
第2种是通过外部渠道获得的。比如用户的行为记录,如网上购物的浏览情况,搜索的关键字等。是通过推荐系统来实现。
第3种是一种爬虫技术,属于非结构化数据。

组件:hive数据的清洗
sqoop:数据的导入导出
flume:日志收集工具
hbase:存储
hdfs
mapreduce
zookeeper:集群的一致性。

九.Hadoop的使用案例。
用于数据分析。

1.银行和信用卡公司进行欺诈性检测。
2.社交媒体的市场分析。
3.电商网站的购物模式分析,用户行为分析。
4.城市发展的交通模式识别。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值