学习_003_大数据的入门视频教程

这篇博客介绍了大数据的核心问题及解决方案,包括分布式文件系统(如GFS、HDFS)和分布式计算(如MapReduce)。讲解了大数据学习路线,涉及Java、Hadoop、Spark、Storm、Redis等技术,并探讨了分布式文件系统为解决存储问题所面临的挑战。学习心得提到,大数据解决方案的核心是分布式思想,简化了大量数据的存储和计算问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

课程说明
内容
课程类型视屏课程
内容类型通用
课程名称大数据的入门视频教程
地址https://edu.youkuaiyun.com/course/play/8957/185351
时长80
费用会员免费
课程目录和概要

一.什么是大数据(量变引起质变)

  1. 大量的数据需要存储
  2. 大量的数据需要计算

二.大数据的核心问题解决方式

  1. 数据的存储:分布式文件系统
  2. 数据的计算:分布式计算

三.大数据的核心思想(google的三篇论文)

  1. GFS:Google File System(Google的分布式文件系统)–》Hdfs(Hadoop Distribute File System)
  2. MapReduce(分布式计算模型):解决大数据的计算问题
  3. BigTable(大表)–》NoSql数据库:HBase

四.大数据的学习路线

  1. java语言
  2. Hadoop:HDFS、Yarn、MapReduce、Hbase、Hive、ZooKeeper等
  3. Spark
  4. Storm:大数据实时计算引擎
  5. Redis:内存NoSQL数据库
  6. Scala语言
  7. Spark:Spark Core、Spark SQL、Spark Streaming
  8. Apache Kafka
  9. Linux基础

五.分布式文件系统的基本原理(解决存储问题)

  1. 问题1:文件过大,存储空间不足(扩展存储空间,增加硬盘)
  2. 问题2:数据只有一份,碰到意外情况,数据会丢失(数据冗余,自动备份数据)

六.分布式文件系统需要解决以下问题

  1. 如何扩展空间,确保增加的空间与原空间一体
  2. 如何把大文件存到多个空间中,不重不漏
  3. 如何对数据进行自动备份,速度快,消耗少,安全稳定
  4. 如何在某个数据损坏时自动使用备份数据,自动、及时、准确
  5. 如何从多个空间中取出分散的数据并组合,恢复原状不影响使用
学习心得

这个课程对大数据的说明简单准确,就是大量的数据需要存储,大量的数据需要计算,老的数据处理系统不能适应这样的问题,所以大数据解决方案应运而生。
确实是非常聪明的方式,分布式,即通过联盟的形式解决问题。空间不足就增加,计算困难就拆分。这个分布式的思想日常生活中经常用。东西箱子放不下,就多拿几个箱子放。工作太多做不完,就多找几个人一起干。
思想简单,可实际应用起来有很多需要解决的问题,不过我们只要知道原理即可,不需要知道细节内容,因为基本上用不到。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值