《数据仓库与数据挖掘》课程综合性实验报告
开课实验室:软件工程实验室 2019 年 5 月 6 日
实验题目 OLAP数据分析与数据挖掘算法应用
一、 实验目的
1、对数据进行ETL操作
(1)熟悉工具的运用,初步掌握数据仓库数据的ETL过程。
(2)加深对ETL(提取、转换、加载)的理解。
2、通过OLAP进行数据分析
(1)熟悉OLAP进行数据分析
(2)学会使用自底向上方法创建数据立方
(3)学会运用OLAP的四个分析操作分析数据仓库。
3、Apriori 关联规则算法应用
(1)熟悉使用关联规则算法挖掘数据仓库信息
(2)创建关联规则挖掘模型
4、K-Means 聚类算法应用
(1)熟悉使用K-Means聚类算法挖掘数据仓库信息
(2)创建K-Means聚类挖掘模型
二、设备与环境
Windows 10 操作系统,SQL server 2012,VS2017(SSDT)
三、实验要求
本实验按照实验目的,实现四个目标,包括四个部分。按照教材中SQL
Server应用案例逻辑格式,给出实验报告,具体包括:1、环境准备;2、操作步骤;3、详细步骤;在详细步骤中,要求有系统实现的截图,作为给分的重要依据。
在实验中涉及数据集,可以使用SQL server系统中的数据集或者自行下载网络数据集。
四、实验内容及分析
1、对数据进行ETL操作
ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。
ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
ETL是数据仓库中的非常重要的一环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度