数据仓库与ETL的相关定义

什么是数据仓库

       传统数据库(DataBase,DB)是长期存储在计算机内的、有组织的、可共享的数据集合。数据仓库(Data Warehouse,DW)是一个面向主题的、集成的、相对稳定的(不可修改的)、反映历史变化的(随时间变化的),支持管理决策的数据集合。数据仓库是一种特殊的数据库。

  1. 面向主题的

       主题你想要的某种统计数据,例如住宾馆的时候需要登记个人信息,入住时间,入住天数等,就可以从中提炼出“宾馆入住”主题。

  1. 数据仓库的数据是集成的

       数据仓库的数据主要用于分析决策,所以我们要掌握尽可能全面的数据。所谓数据集成,就是根据决策分析的主题需要,把原先分散的事物数据库、数据文件、Excel文件、XML文件等多个异种数据源中的数据,收集并汇总起来形成一个统一并且一致的数据集合的过程。

  1. 数据仓库是不可修改的

       数据仓库的数据都是从数据源中抽取出来的历史数据,这些数据反映的是过去相当长一段时间内的状况,记录历史点上发生的事情。其数据处理主要是数据查询和统计分析,不涉及业务上的增删改查,所以不涉及数据的修改操作。

  1. 数据仓库的数据是随时间变化的

       数据仓库需要随时间不断增加新的内容用于实时的统计分析。数据仓库随时间不断删除旧的数据,数据仓库的存储期限一般是(5~10)年,过期数据将会删除,这种方式是为了满足趋势性决策分析。数据仓库中的数据往往用于综合分析与按照时间段进行抽样分析。


ETL(数据仓库技术)

       数据仓库的每一个主题所对应的数据源存放在各自分散的数据库或数据文件中,不仅数据格式不统一,而且还可能存在许多重复数据。此外,数据不可能直接从数据源中取到,因此,数据进入数据仓库之前,还必须应用数据清理、转换等数据预处理技术。这一步处理称为数据的ETL(Extract-Transform-Load,抽取-转换-加载)。

ETL工具kettle

       kettle是基于java的ETL工具,kettle学习网站:http://www.kettle.net.cn/category/install
Kettle家族目前包括4个产品:Spoon、Pan、CHEF、Kitchen。

  • SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。
  • PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)。Pan是一个后台执行的程序,没有图形界面。
  • CHEF 允许你创建任务(Job)。 任
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值