数据挖掘:理论与算法学习笔记

一.走进数据科学

1.从数据到知识

数据公开:数据孤岛→公开数据(标准格式)
数据挖掘:从大量、不完整、嘈杂的数据中提取有趣、有用、隐藏模式的过程  
从数据到智能过程:Data(Database)→Information(Preprocessing)→Knowledge(Data Mining)→Decision Support(Decision Models)
ETL(提取、转换、装载)
数据挖掘过程:Define Problem→Data Collection→Data Preparation→Data Modeling→Interpretation Evaluation→Implement Deply Model
数据挖掘工具:SPSS

2.分类问题

分类:通过训练集得出模型,来判断/预测下一个object的性质,存在标签
有监督的学习和无监督的学习的根本区别在于:学习样本是否需要人工标记

算法:决策树、KNN、神经网络、支持向量机等

应用:医学诊断和预测客户是否会流失

分类界面:选择合适的分类界面进行分类
注意:需要形成合力的分界面,避免过拟合学习

Cross Validation:

避免训练集与测试集重复,避免过拟合

评价指标:

1.Confusion Matrix和Accuracy

2.Receiver Operating Characteristic(ROC曲线)
3.AUC(Area Under Curve)

3.聚类问题

聚类:将objects聚集成一个个group,在聚类中没有标签(无监督学习)

关联规则算法:itemsA与itemsB间的关系(行为关联趋向)
线性回归算法:参数和变量之间是线性的,而非最终表达为线性

衡量两个点距离远近或是否相似:欧氏距离,曼哈顿距离,马氏距离

算法:K-Means,Sequential Leader,Affinity Propagation

二.数据预处理

1.数据清洗

数据清洗:数据在获得时可能并不可用,缺数据,数据错误,噪音等问题都会导致程序无法运行。因此在处理之前要进行清洗等操作

数据预处理:将无法直接使用的数据经过处理后使之能够使用

数据预处理中遇到的问题:缺失数据
可能的原因:设备故障    ,不提供数据,不适用

不同的类型:完全随机缺失,条件随机缺失非随机缺失

处理方法:
忽视(缺失的数量较少时)
填充缺失值/手工:再采集、猜测
填充缺失值/自动:常值、均值(可加入高斯分布)、最可能的值

离群点和异常点是有区别的,要谨慎的区分两者。

2.异常值与重复数据检测

异常是相对的,在计算异常值时要考虑相对性,可以尝试与近邻值相比较

Local Outlier Factor:

LOF值越大,离群点的可能性越大

相同的信息可以用不同的形式来表示。而计算机可能无法识别这些重复
我们可以尝试使用滑动窗口,将某数据与部分之前的数据进行比

3.类型转换与采样

数据转换:类型转换,标准化,采样

数据类型:连续型、离散型、序数型、标称型、文本型

类型转换:定序(可排序不可加减),定类(不可排序)

采样:

1.聚集:根据需要将数据进行聚集,不需要知道最底层的数据,可以大大减少数据量,数据也可以更加平稳

2.不平衡数据(整体的准确率不适用于不平衡数据)

G-mean:正、负类最大为1,若有一类全分错,则G-mean是0,。因此要求不能分错很多

F-measure:与G-mean类似,需要考虑一个问题的两个方面,用于信息检索(准确率,召回率)

向上采样:对少数类样本通过插值进行上采样

边缘采样:中间的数据可能并不参与数据挖掘中,边缘的数据可能价值更大,能够节省大量计算资源

4.数据描述与可视化

标准化:Min-max标准化和Z-score标准化

数据描述:均值,中位数,频率,方差

数据相关性:

rAB > 0,则A、B正相关
rAB < 0,则A、B负相关
rAB = 0,代表A、B之间没有线性相关,而非不相关
卡方检验(Chi-Square Test):卡方值越大,说明相关性越大
 

数据可视化:
1D:饼图、柱状图、曲线图
2D:二维坐标轴
3D:三维坐标轴
高维:箱型图(Box Plots)(丧失了维度之间的关联)、平行坐标(Parrallel Coordinates)(图形复杂)

可视化软件:CiteSpace、Gephi

5.特征选择

目的:需要挑选最相关的属性,将问题的难度降低

判断指标(属性的好坏:理论上的好属性是能够百分百的区分开):
熵(Entropy):衡量系统的不确定性 
熵越趋于中间,不确定性越高;概率为0或1的时候,熵是最小的(不确定性最低)。

信息增益:
当知道一些额外属性后,对这个系统的不确定性降低多少,即这个属性的价值。信息增益越大越好,即该属性的效能越高,越有区分度。

如何选择特征组合:
排列组合、近似解
分支定界(全局最优):
剪枝,简化搜索空间,可以找到最优解(不是近似解或启发式的解)

贪心算法:
Top K Individual Features:由于有些属性间存在相关性,因此并不是把所有的好属性聚集在一起就是一个好的属性集
Sequential Forward Selection:假设现有两个最好,加入一个后寻找三个最好,逐渐扩张属性集
Sequential Backward Selection:假设现有十个属性,每次删掉一个,寻找最好的属性集,逐渐缩小属性集

优化算法:
Simulated Annealing
Tabu Search
Genetic Algorithms

6.主成分分析(PCA)

特征提取:
特征选择与特征提取的区别:前者指从n个属性中选择最优的m个属性,后者指对原始特征进行线性变换产生新的特征

主成分分析:
同样的物体从不同角度看,差别很大(信息损失不同)
原理:选择适合的方向,将两个类区分开
PCA做的事:将原始数据投影到具有最大特征值的特征向量

7.线性判别分析(LDA)

主成分分析法PCA:无监督学习,不考虑类信息(class information)。因此,可能会把原来能分开的数据,投影后无法分开
线性判别分析法LDA:保留类的区分信息,能够保证不同的类能够区分开
基本思路:选择合适的投影方向(可以对坐标进行旋转),能够将两个类区分开。因此,选择不同的投影方向非常重要
LDA与PCA区别:

LDA容易拓展到多个分类,C类问题和2分类问题(C=2)是一样的算出来的特征向量不一定正交
LDA的局限性:
Sb矩阵的秩最大为C-1
Sw可能是奇异矩阵,因此可能先要使用PCA降维,再使用LDA
LDA可能无效,即找不到投影方向(均值不能相等)
 

三.从贝叶斯到决策树

分类:有监督学习(有输入,有输出)
有监督的学习和无监督的学习的根本区别在于:学习样本是否需要人工标记
训练分类器:需要大量有标签的样本,通过训练形成抽象的表达形式,再对测试集进行判断

1.贝叶斯

贝叶斯公式(后验概率):

P(A)、P(B)为先验概率

朴素贝叶斯分类器:

即看哪一个ωi大就是哪个,即后验概率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值