1
1.1
数据分析的定义
数据分析是指用适当的分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的目的
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出研究对象的内在规律。
数据分析的六大步骤
明确目的和思路(先决条件、提供项目方向)、数据收集(数据库建立)、数据处理(清洗、转化、提取、计算)、数据分析(数据统计、数据挖掘)、数据展现(图标、表格、文字)、报告撰写(结构清晰,明确结论、提出建议)
数据分析中数据来源的四种方式
数据库、第三方统计工具、统计年鉴或报告、市场调查
数据分析的类型和各个类型的定义
描述性数据分析:自一组数据中,可以摘要并且描述这份数据的集中和离散情形
验证性数据分析:验证科研假设,测试所需的条件是否达到,以保证验证性分析的可靠性。
探索性数据分析:从海量数据中找出规律并产生分析模型和研究假设
注:探索性数据分析侧重于在数据中探索新的特征,验证性数据分析侧重于验证之前假设的真伪性;探索性数据分析以及验证性数据分析属于高级分析方法,常见的分析方法有相关分析、因子分析、回归分析等。
常用的数据分析方法
聚类分析、回归分析、方差分析、对应分析、因子分析、相关分析
数据挖掘的过程
A、数据清理(消除噪声和删除不一致数据)。
B、数据集成(多种数据源可以组合在一起)。
C、数据选择(从数据库中提取与分析任务相关的数据)。
D、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)。
E、数据挖掘(基本步骤,使用智能方法提取数据模式)。
F、模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式。
G、知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。
1.2
4V
Volume(大量化)、Variety(多样化)、Velocity(快速化)、Value(商业价值高、价值密度低)
3.
数据预处理的主要任务及目的
数据清洗、数据集成、数据规约、数据变换
数据清洗:填充缺失值, 识别/去除离群点, 光滑噪音, 并纠正数据中的不一致
数据集成:多个数据库, 数据立方体, 或文件的集成(合并多个数据源中的数据,存入一个一致的数据存储中)
数据规约:得到数据的归约表示, 它小得多, 但产生相同或类似的分析结果:维度规约、数值规约、数据压缩
数据变换:规范化和聚集
数据预处理解决的问题
数据清洗:去除脏数据(可以具体点,比如什么样的脏数据,包括离群数据)
数据集成:合并多个数据源中的数据,存入一个一致的数据存储中。数据规约:数据归约(消减)技术用于帮助从原有庞大数据集中获得一个精简的数据集合,并使这一精简数据集保持原有数据集的完整性。这样在精简数据集上进行数据挖掘显然效率更高,并且挖掘出来的结果与使用原有数据集所获得结果基本相同。
数据集成涉及的问题
主要涉及模式集成(在中介模式与源数据模式上建立映射关系)、属性冗余(可以分局协相关系数、视觉散点图、卡方检验等方法判断两个属性之间的相关性)、实体识别、去除重复数据、数据值冲突的检测与处理(表示、比例或编码不同)
数据归约的常见方法
数据立方体聚集:数据立方体是数据的多维建模和表示,由维和事实组成。
维规约:减少所考虑的随机变量或属性的个数(去除无关的属性,找出最小属性子集并确保属性子集的分布接近原来数据集的概率分布)
数值规约:用替代的、较小的数据表示形式替换原数据。这些技术可以是参数的或非参数的:
参数方法而言,使用模型估计数据,使得一般只需要存放模型参数,而不是实际数 据(离群点可能也要存放)。回归和对数-线性模型就是例子。
非参数方法包括直方图、聚类、抽样和数据立方体聚集。
数据压缩:使用变换,以便得到原数据的归约或“压缩”表示,分为有损和无损压缩,维归约和数值归约也可以视为某种形式的数据压缩。
离散化与概念分层生成:
3-4-5规则:
如果一个区间最高有效位上包含3,6,7或9个不同的值,就将该区间划分为3个等宽子区间;(72,3,2)
如果一个区间最高有效位上包含2,4,或8个不同的值,就将该区间划分为4个等宽子区间;
如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间(如 5%-95%),越出顶层分段的特别高和特别低的采用类似的方法形成单独的区间。
数据转换常用的技术
光滑(去除噪声,如分箱、聚类、回归)、聚集(avg、sum。。。。)、属性构造(长和宽构造面积)、数据概化(泛化)、规范化(最大最小规范化、Z-score规范化(又叫零-均值规范化,数据与均值的差再比上数据集的方差)、小数定标规范化(移动小数点)
4.
OLTP的特点
主要任务是进行事物处理(OLTP),它所关注的是事物处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着不足,主要体现在:集成性的缺乏、主题不明确、分析处理效率低
数据仓库的概念
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented )、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。
面向主题的:在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象;在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象
集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的
反映历史变化: 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
数据仓库的目的
数据仓库提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持 。
传统数据库与数据仓库的比较
比较项目 传统数据库 数据仓库
总体特征 围绕高效的事务处理 以提供决策为目标
存储内容 以当前数据为主 历史、存档、归纳
面向用户 普通业务处理人员 高级决策管理人员
功能目标 面向业务操作,注重实时 面向主题,注重分析
汇总情况 原始数据 多层次汇总,数据细节损失
数据结构 结构化程度高,适合运算 结构化程度适中
数据仓库数据组织的四个粒度
早期细节级、当前细节级、轻度综合级、高度综合级
源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合 从而进入轻度综合级及至高度综合级。
老化的数据将进入早期细节级。
数据分割
将数据分散到各自的物理单元中, 以便能分别独立处理,以提高数据处理效率。(可以按照地理位置、业务类型、时间等进行分割)
数据仓库的构建方式
自顶向下:从总体设计和规划开始,先建造企业数据仓库,再从企业数据仓库中建