1.数据导论
①什么是数据
-
对人的行为及习惯做的一种记录.
-
大白话: 一切皆数据.
②数据有什么?
-
可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境.
③我们以后要做什么?
-
我们要做数据分析, 就是从海量的数据中提取出有效的价值信息, 实现数据的商业化, 价值化,
-
给企业决策者或者运营人员提供分析型报告 和 数据支持.
2.大数据相关导论
①什么是大数据?
-
狭义上理解: 分析海量的数据, 提取出有价值的信息.
-
广义上理解: 用数据为生活赋能, 改善人类的生活体验和生活质量.
② 大数据的特点?
大多值快信.
多: 种类繁多, 分为结构化数据, 半结构化数据, 非结构化数据.
结构化数据: Excel表, MySQL表.
半结构化数据: json字符串, html, xml
非结构化数据: 音频, 视频等...
③大数据解决了什么问题?
-
海量数据的: 存储
-
海量数据的: 计算
-
海量数据的: 传输
3.大数据体系介绍
-
海量数据的存储: HDFS, HBase
-
海量数据的计算: MapReduce, Hive, Spark, Flink
-
海量数据的传输: Sqoop, Flume, Kafka...
4.Apache Hadoop介绍
Hadoop之父: 道格 卡丁 Doug Cutting
吉祥物: 大象
Hadoop解释:
狭义上: 指的是HDFS, MapReduce, Yarn等框架.
广义上: 指的是Hadoop生态圈, 包括但不限于周边所有技术, 例如: Spark, Flink, Sqoop...
Hadoop组成:
HDFS: hadoop distributed file system, Hadoop的分布式文件系统.
MapReduce: 分布式计算框架
Yarn: 分布式任务接收和资源调度框架.
大数据的三架马车:
2003, 谷歌的GFS => 道格 卡丁开源, HDFS
2004, 谷歌的MapReduce => MapReduce
2006, 谷歌的BigTable => HBase
Hadoop的版本:
社区版, 免费的, 有Apache维护.
商业版, 收费的, 用的最多的, CDH(Cloudera公司的产品, 卡大爷目前就就职于这家公司)
我们学习用 hadoop3.3.0(社区版)