大数据是什么

1.数据导论

①什么是数据

  • 对人的行为及习惯做的一种记录.

  • 大白话: 一切皆数据.

 ②数据有什么?

  • 可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境. 

③我们以后要做什么?       

  • 我们要做数据分析, 就是从海量的数据中提取出有效的价值信息, 实现数据的商业化, 价值化,

  • 给企业决策者或者运营人员提供分析型报告 和 数据支持.

2.大数据相关导论

  ①什么是大数据?

  • 狭义上理解: 分析海量的数据, 提取出有价值的信息.

  • 广义上理解: 用数据为生活赋能, 改善人类的生活体验和生活质量.

② 大数据的特点?

     大多值快信.

     多: 种类繁多, 分为结构化数据, 半结构化数据, 非结构化数据.

     结构化数据: Excel表, MySQL表.

     半结构化数据: json字符串, html, xml

     非结构化数据: 音频, 视频等...

③大数据解决了什么问题?

  • 海量数据的: 存储

  • 海量数据的: 计算

  • 海量数据的: 传输


3.大数据体系介绍

  • 海量数据的存储: HDFS, HBase

  • 海量数据的计算: MapReduce, Hive, Spark, Flink

  • 海量数据的传输: Sqoop, Flume, Kafka...

 


4.Apache Hadoop介绍

Hadoop之父: 道格 卡丁  Doug Cutting
吉祥物: 大象

Hadoop解释:
    狭义上: 指的是HDFS, MapReduce, Yarn等框架.
    广义上: 指的是Hadoop生态圈, 包括但不限于周边所有技术, 例如: Spark, Flink, Sqoop...
    
Hadoop组成:
    HDFS: hadoop distributed file system, Hadoop的分布式文件系统.
    MapReduce: 分布式计算框架
    Yarn: 分布式任务接收和资源调度框架.
    
大数据的三架马车:
    2003, 谷歌的GFS => 道格 卡丁开源, HDFS
    2004, 谷歌的MapReduce => MapReduce
    2006, 谷歌的BigTable => HBase
    
Hadoop的版本:
    社区版, 免费的, 有Apache维护.
    商业版, 收费的, 用的最多的, CDH(Cloudera公司的产品, 卡大爷目前就就职于这家公司)
    
我们学习用 hadoop3.3.0(社区版)

   

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值