一、什么是大数据?
1、举例:(1)电商:商品推荐 ----> 问题1:大量的订单如何存储? 问题2:大量的订单如何计算?
(2)天气预报 ----> 问题1:大量的天气数据如何存储? 问题2:大量的天气数据如何计算?
2、大数据解决核心问题:
(1)数据的存储 ---> 解决:分布式的文件系统(存储数据)。
HDFS(Hadoop Distributed File System),来源于GFS(Google File System)
倒排索引(找到数据)
(2)数据的计算 ---> 解决:分布式的计算模型(MapReduce,来源PageRank问题),来自于Google
3、IBM提出大数据定义:5个V
二、传统的数据仓库:使用传统的方式来解决大数据的问题 ----> 一般不修改数据
1、Hadoop其实就是数据仓库的一种实现方式
2、数据仓库:就是一个数据库(Oracle、MySQL、SQL Server*****)
比较大、多个、一般只做查询select
3、画图:搭建数据仓库的过程
2、数据仓库:就是一个数据库(Oracle、MySQL、SQL Server*****)
比较大、多个、一般只做查询select
3、画图:搭建数据仓库的过程
三、离线计算模型和MapReduce
1、MapReduce进行离线计算:订单分析2、离线计算特点:参考讲义:P84页
四、实时计算(流式计算)模型和Storm
1、举例:自来水厂处理自来水的过程2、Storm的体系结构简介
3、实时计算框架
(1) storm
(2) spark streaming
(3) jstorm: 阿里巴巴
(4) flink: 最新的、不成熟
本文深入探讨了大数据的概念及其核心解决方案,包括分布式文件系统如HDFS、计算模型如MapReduce,并介绍了实时计算框架如Storm等,同时概述了Hadoop生态系统及数据仓库的搭建过程。
1264

被折叠的 条评论
为什么被折叠?



