数据挖掘(1)- 引入
数据挖掘(2)- 数据
数据挖掘(3)- 分类
数据挖掘(4)- 关联分析
数据挖掘(5)- 聚类分析
数据挖掘(6)- 异常检测
1、数据类型
数据的类型决定我们应使用何种工具和技术来分析数据。对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。数据挖掘也可以用于其他类型的数据(例如,数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网)。
2、数据预处理
数据预处理主要是解决数据中存在遭受和离群点、数据遗漏、不一致或重复和数据有偏差或不能代表它应该描述的现象或总体情况等数据质量问题,通过采取一些操作使数据更加适合挖掘。
常见的操作技术如下:
(1)聚类 :将两个或多个对象合并成单个对象,是删除属性或者是压缩特定属性不同值个数的过程。其缺点就是可能会丢失有趣的细节。
(2)抽样 : 在数据挖掘中,常是由于处理所有数据的费用太高、太费时间,才会考虑到抽样,可以压缩数据量。
(3)维归纳 : 可以删除不相关的特征并降低噪声,同时降低维度,避免维数灾难;另外可以使模型更容易理解;也可以更容易让数据可视化;降低了数据挖掘算法的时间和内存需求。PCA 、SVD等技术。
(4)特征子集选择 :这也是降低维度的一种方法——使用特征的一个子集,可以消除一些冗余或不相关特征。嵌入、过滤、包装等方法。
(5)特征创建 : 通过根据原有的属性创建新的属性集,更有效地捕获数据集中的重要信息。特征提取、映射数据到新的空间和特征构造等方法。
(6)离散化和二值化
(7)变量变换
3、数据对象之间的相似度和相异度
相似度和相异度
- 相似度 : 两个对象相似程度的数值度量,越相似,其相似度越高,一般取值在[-1,1].
- 相异度 : 两个对象差异程度的数值度量,同义词距离。通常也是非负的,在[0,1]之间取值,0到∞也很常见
- 相似度和相异度是可以相互转换的。
使用邻近度表示相似度或者相异度
常见的邻近度有相关,欧几里得距离,Jaccard相似性,余弦相似性. 前两者适用于时间序列这样的稠密数据,后两者适用于文本这样的稀疏数据.
1、距离 :Minkowski distance:
d
(
x
,
y
)
=
(
∑
k
=
1
N
∣
x
k
−
y
k
∣
r
)
1
/
r
d(x,y)=(\sum_{k=1}^{N}|x_k-y_k|^r)^{1/r}
d(x,y)=(k=1∑N∣xk−yk∣r)1/r
2、相关 :Pearson’s correlation: :
c
o
r
r
(
x
,
y
)
=
c
o
v
(
x
,
y
)
s
t
d
(
x
)
∗
s
t
d
(
y
)
=
s
x
y
s
x
∗
s
y
corr(x,y)=\frac{cov(x,y)}{std(x)*std(y)}=\frac{s_{xy}}{s_x*s_y}
corr(x,y)=std(x)∗std(y)cov(x,y)=sx∗sysxy
3、Jaccard相似性 :
J
=
匹
配
个
数
属
性
个
数
=
f
11
f
01
+
f
10
+
f
11
J=\frac{匹配个数}{属性个数}=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}
J=属性个数匹配个数=f01+f10+f11f11
4、余弦相似性 :
c
o
s
(
x
,
y
)
=
x
⋅
y
∥
x
∥
∥
y
∥
cos(x,y)=\frac{x\cdot y}{\|x\| \|y\|}
cos(x,y)=∥x∥∥y∥x⋅y
5、Bregman散度 :
D
(
x
,
y
)
=
ϕ
(
x
)
−
ϕ
(
y
)
<
Δ
ϕ
(
y
)
,
(
x
−
y
)
>
D(x,y)=\phi(x)-\phi(y)<\Delta\phi(y),(x-y)>
D(x,y)=ϕ(x)−ϕ(y)<Δϕ(y),(x−y)>
4、数据的汇总统计
汇总统计 是量化的(如均值、方差),用单个数或数的小集合捕获可能很大的值集的各种特征。
常用的有:
- 频数 :可以看到特定的值出现的频率;其中频率最大的为众数 (可以提供关于值的性质或关于出现遗漏值的重要信息);
- 百分比 : 对于有序数据更有意义;
- 位置度量 : 均值 (表示一组数据集中趋势,对离群值敏感) , 中位数 ;
- 散布度量 :极差(标识最大散布);方差(一组数据分散程度,对离散值敏感);
- 多元统计汇总 : 协方差矩阵 , 相关矩阵 。
5、可视化
可视化 是将数据集以图形或表格的形式显示信息,使人们能够快速吸取大量可视化信息。
常用的:线图、条形图和散步图等等。
6、联机分析处理(OLAP)
OLAP包含一系列考察多维数组数据的技术,OLAP的分析功能集中在从多维数据数组中创建汇总表的各种方法,同时包含在不同的维上或不同的属性值上聚集数据。