
数据挖掘精髓归纳
文章平均质量分 80
包含数据预处理、相似性度量、不平衡类问题、分类器性能评估、关联分析、聚类分析、异常检测几大块内容。
奔跑的Yancy
科研方向:机器视觉、深度学习;
项目方向:iOS APP、H5 APP;
展开
-
不平衡类问题(稀有类检测)的评估与改善方法
目录一、可选度量二、ROC曲线三、代价敏感学习四、基于抽样的方法不平衡类问题常常出现,特别是异常检测领域。某一类样本很多,某一类样本很少。我们针对这类问题设计了一些评估或改善的方法,使得结果更加令人满意。本文讲的是一般性的机器学习、数据处理领域的不平衡类问题。在深度学习中如果遇到不平衡问题,也可触类旁通。参见《干货 | 深度学习中不均衡数据集的处理》一、可选度量这个...原创 2018-11-28 11:01:31 · 1861 阅读 · 0 评论 -
机器学习/数据处理领域结果的评估度量——召回率、精度、F1score等指标计算方法
我们常常在一些论文后看到作者给出的一些评估度量,不仅仅是简单的正确率,还有Fscore、recall等看似高深的东西。那么这些东西是怎么来、怎么用的呢?我们要从不平衡类问题讲起。因为在正、负样本不均衡的类中,如果单一使用准确率可能是很不合理的。比如有10个异常类(一般标为正类),90个正常类(负类),那么我们关心的是异常类能不能都被正确分出来,这样才能达到我们的目标效果(就是检测异常)。如果我...原创 2018-11-28 10:24:32 · 3867 阅读 · 2 评论 -
2018异常检测综述——基于统计学、邻近度、密度、聚类的异常检测方法
目录一、基础知识异常成因异常检测方法异常检测的关键问题二、基于统计学的方法三、基于邻近度的方法四、基于密度的方法五、基于聚类的方法异常检测(Anomaly Detection)也称偏差(deviation)检测或者离群点(outlier)检测,从数据的角度来看,其实就是检测出和众多其他观测值差别非常大的一个特殊的观测值。异常检测在历史上实际是数据预处理的一个步骤...原创 2018-11-27 22:21:14 · 15474 阅读 · 0 评论 -
模型过拟合及模型泛化误差评估
今天我们来深入探讨过拟合的一些高阶知识。对于分类模型,我们总希望它是有低的训练误差和低的泛化误差。那么过拟合的产生机理中有哪些有意思的东西?在建立一个分类模型的过程中我们暂时对检验数据集一无所知(也就是暂时得不到真正泛化误差),那么此时我们是如何估计泛化误差的?我们的目录:目录一、过拟合产生原因二、过拟合与多重比较过程三、泛化误差估计一、过拟合产生原因噪声导致过拟合...原创 2018-11-26 11:14:22 · 9596 阅读 · 0 评论 -
决策数算法进阶:属性测试条件、最佳划分度量、过拟合现象的处理
我们在先前博文中已经简要介绍了决策树的思想和几个经典算法来构造决策树:《决策树算法简介及其MATLAB实现代码》。今天我们要针对决策树继续深入探讨一些的问题,目录如下:目录一、表示属性测试条件的方法二、选择最佳划分的度量三、处理决策树归纳中的过分拟合现象一、表示属性测试条件的方法决策树在增长过程中的每个递归步都要选择一个属性测试条件,将数据划分成更小的子集。为了实现这个步骤...原创 2018-11-25 17:28:51 · 1829 阅读 · 0 评论 -
评估分类器的性能:保持方法、交叉验证、自助法等
目录一、保持(holdout)方法二、随机二次抽样三、交叉验证四、自助(bootstrap)法一、保持(holdout)方法保持方法其实就是我们最经常用的,最普遍的方法。将标记的数据分成两个不相交的集合,一部分作为训练集,一部分作为验证集。在数据集上训练我们的分类模型,在检验集上评估模型的性能。两个集合的划分比例通常根据专家判断,比如2:1,1:2等。保持方法有众所...原创 2018-11-25 15:13:16 · 5703 阅读 · 0 评论 -
数据的相似性和相异性的度量
要讨论相似度(similarity)和相异度(dissimilarity),我们先引入一个术语叫邻近度(proximity)。邻近度可以表示相似性或者相异性,相当于是一个总括概念。邻近度度量有很多,比如相关和欧几里得距离(在时间序列这样的稠密数据或者二维点用到)、余弦相似度和Jaccard系数(文档类稀疏数据)。我们接下来简明扼要地来探讨梳理一下。本文讲解的目录是:一、相异度二、相似度...原创 2018-11-23 15:31:34 · 11746 阅读 · 0 评论 -
数据预处理工作中的几个关键主题探讨:聚集、抽样、降维、离散化、变量变换等
数据预处理是数据挖掘领域必不可少的前提工作。经过预处理的功数据才更加有质量,更好地适应数据挖掘的算法过程、减少运算量或优化运算过程,在某些时候甚至起到决定结果好坏的作用。我们讨论如下几个主题:一、聚集二、抽样三、维归约(降维)四、特征子集五、特征创建六、离散化和二元化七、变量变换粗略地说,我们要探讨的问题分类:对数据的分析和对数据属性的创建/修改。有些比较简...原创 2018-11-22 11:25:17 · 4701 阅读 · 0 评论