课程说明
项 | 内容 |
---|---|
课程类型 | 视屏课程 |
内容类型 | 通用 |
课程名称 | 大数据的入门视频教程 |
地址 | https://edu.youkuaiyun.com/course/play/8957/185351 |
时长 | 80 |
费用 | 会员免费 |
课程目录和概要
一.什么是大数据(量变引起质变)
- 大量的数据需要存储
- 大量的数据需要计算
二.大数据的核心问题解决方式
- 数据的存储:分布式文件系统
- 数据的计算:分布式计算
三.大数据的核心思想(google的三篇论文)
- GFS:Google File System(Google的分布式文件系统)–》Hdfs(Hadoop Distribute File System)
- MapReduce(分布式计算模型):解决大数据的计算问题
- BigTable(大表)–》NoSql数据库:HBase
四.大数据的学习路线
- java语言
- Hadoop:HDFS、Yarn、MapReduce、Hbase、Hive、ZooKeeper等
- Spark
- Storm:大数据实时计算引擎
- Redis:内存NoSQL数据库
- Scala语言
- Spark:Spark Core、Spark SQL、Spark Streaming
- Apache Kafka
- Linux基础
五.分布式文件系统的基本原理(解决存储问题)
- 问题1:文件过大,存储空间不足(扩展存储空间,增加硬盘)
- 问题2:数据只有一份,碰到意外情况,数据会丢失(数据冗余,自动备份数据)
六.分布式文件系统需要解决以下问题
- 如何扩展空间,确保增加的空间与原空间一体
- 如何把大文件存到多个空间中,不重不漏
- 如何对数据进行自动备份,速度快,消耗少,安全稳定
- 如何在某个数据损坏时自动使用备份数据,自动、及时、准确
- 如何从多个空间中取出分散的数据并组合,恢复原状不影响使用
学习心得
这个课程对大数据的说明简单准确,就是大量的数据需要存储,大量的数据需要计算,老的数据处理系统不能适应这样的问题,所以大数据解决方案应运而生。
确实是非常聪明的方式,分布式,即通过联盟的形式解决问题。空间不足就增加,计算困难就拆分。这个分布式的思想日常生活中经常用。东西箱子放不下,就多拿几个箱子放。工作太多做不完,就多找几个人一起干。
思想简单,可实际应用起来有很多需要解决的问题,不过我们只要知道原理即可,不需要知道细节内容,因为基本上用不到。