前言:本文章分为6章。
咱们直接上干货,
第一章:数据仓库基础
第一节:数据处理平台
当今社会,数据爆炸,主要是这三个大融合时代:PC互联网,移动互联网,可穿戴式互联网。单位由TB到PB、EB、ZB、YB。
数据庞大,如何管理了?
当然是用软件来管理,软件的发展其实就是数据程序化智能处理技术的发展。
数据管理软件分为Database(数据库,DB)和DataWarehouse(数据仓库,DW)。简单介绍一下,一般网上购物的时候首先需要注册,注册的信息就被存储在DB里面,在一个电商平台有很多用户在购物,就会产生许多商品浏览、购买数据等等,那么我们可以通过对这些数据进行统一的整合分析管理进而为用户提供更丰富的的电商服务,这样的事情就由DW来做。
第二节:数据库
从字面上来理解就是,存放数据的仓库,按照一定的规定与方式来处理,共享等等操作。也可以叫做电子文件柜,这样通俗易懂。什么增删改查等等操作。用专业的话来讲就是:计算机工程师利用计算机硬件和程序设计语言开发的、一个对外发布的、高可用的成熟软件产品。其中,硬件就是提供物理存储,软件就是提供数据的自动化管理,官方统称其为数据库管理系统。
想必,咱们听说过关系型数据库和非关系型数据库两大类。那么这两者之间的区别是什么了,简单的来说,其实就是存放数据方式不同,仅此而已。
关系型数据库:MySQL(学hive的基础)、Oracle、DB2、Sybase、PostgreSQL、SQLServer、Access等等。
非关系型数据库:BigTable(Google)、HBase(Apache)、Redis、MongoDB、Cassandra等等。其中BigTable(Google)、HBase(Apache)后续会介绍。
第三节:关系型数据库
关系型数据库是建立在关系模型基础上的数据库,也就是二维表,由行和列组成,如Excel。所以这种以关系模型存放的数据也被称为结构化数据。
关系性数据库从应用角度来说是为用户提供即时服务的,比如即时查询,即时更新,即时删除,即时新增等服务,通俗的讲就是能够对用户的请求操作,做出毫秒级的时延响应。