大数据学习第一天

最新推荐文章于 2024-06-05 13:39:42 发布

原创最新推荐文章于 2024-06-05 13:39:42 发布 · 167 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

笔记专栏收录该内容

3 篇文章

订阅专栏

一.大数据本质
(1)数据的存储：分布式文件系统…HDFS:Hadoop Distributed File System

(2)数据的计算:分布式计算

二.解决大数据存储
分布式文件系统(HDFS来源于GFS)
搭配HDFS,至少3台机器全分布

三.Hadoop出现的前提环境
概念的出现
1.分布式文件系统
2.分布式计算框架Mapreduce

四.起源
谷歌的三篇论文:
GFS:分布式存储系统
Mapreduce:分布式计算框架
BIGtable
Hadoop继承了谷歌的文件系统
使用以下三个:HDFS
MAPReduce
Hbase

五.与其他分布式比较
1.集群数据首先进行分布式存储
2.集群上通过HDFS分布式文件系统，把数据复制多份，保证数据安全
3.简单易用，扩展容易

六.版本
Hadoop1x版本中核心组件为HDFS,MAPReduce
Hadoop2x新增YARN

七.YARN
1.云操作系统，可以理解为资源管理器，管理集群中的资源。在增加了YARN操作系统之后，MapReduce任务可以跑在YARN平台上,并且实现map reduce任务的管理。
也可以通过YARN平台运行spark。包括spark可读取hdfs的数据文件，兼容性更好。

八.Hadoop生态圈介绍
根据数据来源来分。第一种是，企业内部的数据可分为业务数据和应用服务器日记。
业务数据保存在关系型数据库中。应用型服务器保存在日记文件中，是一种结构化数据。
第2种是通过外部渠道获得的。比如用户的行为记录，如网上购物的浏览情况，搜索的关键字等。是通过推荐系统来实现。
第3种是一种爬虫技术，属于非结构化数据。

组件:hive数据的清洗
sqoop:数据的导入导出
flume:日志收集工具
hbase:存储
hdfs
mapreduce
zookeeper:集群的一致性。

九.Hadoop的使用案例。
用于数据分析。

1.银行和信用卡公司进行欺诈性检测。
2.社交媒体的市场分析。
3.电商网站的购物模式分析，用户行为分析。
4.城市发展的交通模式识别。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。