
论文研读笔记
xiaoshayu520ly
这个作者很懒,什么都没留下…
展开
-
基于特征选择的数据降维算法(笔记)
1.Relief算法:一种特征权重算法,利用特征和泪别的相关性对特征进行权重赋值,移除权重小于阈值的特征。其局限性是仅能处理二元分类问题。2.ReliefF算法:对Relief算法的改进与扩展,支持处理多元分类数据。但是可能为冗余特征赋予权值,即算法的局限性在于不能有效的去除特征间的冗余性。特征选择一般有以下三种方法:过滤法(Relief算法)、封装法、嵌入法。数据降维常用方法:主成分分析法(PC...原创 2018-05-14 23:11:18 · 2219 阅读 · 0 评论 -
基于机器学习算法的糖尿病预测模型研究论文研读笔记
ROC(受试者工作特征曲线):反映敏感性和特异性这两个连续变量的综合指标。AUC代表ROC曲线下方面积大小,一般在0.5~之间,越接近1越好。AUC计算公式:AUC =(1-(FP/(FN+TN)*(FN/(TP+FP))/2))/2AUC能较好得评估预测值和真实值之间的差异。常见的预测方法如下:1. 回归预测法(适合中长期的预测,需大量的样本);2. 时间序列预测法(适合短期预测);3. 灰色系...原创 2018-05-15 12:32:27 · 6087 阅读 · 0 评论 -
面向高维和不平衡数据分类的集成学习研究论文研读笔记
高维不平衡数据的英文指特征(属性)较多,类标号中的类别分布不均匀的数据。 高维数据分类难问题:1.密度估计难问题;2.维数灾难;3.Hughes问题。不平衡数据的分类困难的本质原因:1. 不恰当的评估标准;2. 数据稀疏;3. 数据碎片;4. 不恰当的归纳偏差;5.噪声。分类中的数据不平衡有两种:类间不平衡和类内不平衡。高维数据分类有两种解决思路:(1)在预处理阶段降维,减少特征数量;(2)设计适...原创 2018-05-15 17:09:54 · 1932 阅读 · 0 评论