
特征提取与选择
文章平均质量分 95
littlely_ll
Strive for the best, and prepare for the worst.
展开
-
线性判别分析(LDA)
线性判别分析(LDA)是一种监督学习方法,和主成分分析(PCA)一样,其主要用来降维。有些资料也把LDA称为Fisher线性判别(FLD)。LDA在机器学习,图像识别,数据挖掘等领域有着广泛的应用。LDA的基本思想就是:给定训练样本集,设法将样本投影到一条直线上,使得同类样本的投影点尽可能地接近,异类样本的投影点尽可能远离,在对新样本进行分类时,将其投影到相同的这条直线上,再根据投影点的位置来确定新原创 2017-05-09 14:33:10 · 1650 阅读 · 0 评论 -
PCA原理及其R实现
主成分分析法主成分分析也称主分量分析,是揭示大样本、多变量数据或样本之间内在关系的一种方法,旨在利用降维的思想,把多指标转化为少数几个综合指标,降低观测空间的维数,以获取最主要的信息。 在统计学中,主成分分析(principal components analysis, PCA)是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐原创 2017-04-18 11:19:40 · 6729 阅读 · 0 评论 -
特征选择之relief及reliefF算法
relief算法Relief算法最早由Kira提出,最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms),根据各个特征和类别的相关性赋予特征不同的权重,权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R,然后从和R同类的样本中寻找最近邻样本H,原创 2017-05-11 12:01:57 · 55605 阅读 · 12 评论 -
特征选择之最小冗余最大相关性(mRMR)
最小冗余最大相关性(mRMR)是一种滤波式的特征选择方法,由Peng et.al提出。 用途:图像识别,机器学习等 一种常用的特征选择方法是最大化特征与分类变量之间的相关度,就是选择与分类变量拥有最高相关度的前k个变量。但是,在特征选择中,单个好的特征的组合并不能增加分类器的性能,因为有可能特征之间是高度相关的,这就导致了特征变量的冗余。这就是Peng et.al说的“the m best fe原创 2017-05-12 17:37:04 · 41212 阅读 · 40 评论 -
特征选择之基于相关性的特征选择(CFS)
此为本人学习笔记,转载请劳烦告知!特征选择特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征。特征提取主要用于图像分析,信号处理和信息检索领域,在这些领域,模型精确度比模型可解释性要重要;特征选择主要用于数据挖掘,像文本挖掘,基因分析和传感器数据处理。今天主要做的是特征选择。特征选择定义:检测相关特征,摒弃冗余特征,以获得特征子集,从而以最小原创 2017-05-10 16:28:01 · 44736 阅读 · 45 评论 -
特征选择之遗传算法
基于遗传算法的特征选择是一种wrapper方法,该算法是以支持向量机分类器的识别率作为特征选择的可分性判断依据。在遗传算法中,对所选择的特征用[0,1]二进制串来初始化,由于二进制数{0,1}是等概率出现的,所以最优特征个数的期望是原始特征个数的一半。要进一步减少特征个数,则可以让二进制数{0,1}以不等概率出现,以a个特征中选择b个特征为例,使得在a位二进制串中1出现的概率为b/ab/a。 对于原创 2017-05-22 12:21:54 · 19075 阅读 · 6 评论 -
特征选择之支持向量机递归特征消除(SVM-RFE)
支持向量机递归特征消除(下文简称SVM-RFE)是由Guyon等人在对癌症分类时提出来的,最初只能对两类数据进行特征提取。它是一种基于Embedded方法。支持向量机支持向量机广泛用于模式识别,机器学习等领域,SVM采用结构风险最小化原则,同时最小化经验误差,以此提高学习的性能。详细的SVM介绍请看我的另一篇博文《 线性支持向量机》在这简单介绍一下SVM。 设训练集{(xi,yi)}Ni=1\{(原创 2017-05-15 14:01:14 · 60541 阅读 · 17 评论