数据处理方法
文章平均质量分 72
cyoutetsu
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
数据不平衡问题
数据不平衡问题数据不平衡问题实际上指的就是y的分布相差很大的问题,又称为类别不平衡问题。出现这种问题的原因是在实际取样中,有可能会出现一类的y数量远远大于另一类的例子。一个很明显的例子就是在做信用卡还款预测的时候,一定是按时还款的人占据绝大多数,不按时还款的人占一小部分,那如果机器无脑预测新客户一定会还款,正确率是很高的,但是这样的预测显然不是我们想要的。那么如何解决这种类型的问题呢?不仅从样本取样原创 2017-08-26 17:58:03 · 579 阅读 · 0 评论 -
ROC曲线特征
An Introduction to ROC Analysis [T. Fawcett, 2005]ROCROC是以FPR为X轴,以TPR为Y轴的曲线。表示的是模型的效果(由TPR表示)和损失(由FPR代表)的相对关系和取舍概况。 分类器对不同样本给出了更偏向正例还是反例的的概率值,然后这些概率值可以和一些人为设定的阈值比较从而得出最终的分类结果。例如,大于阈值的就是正例,小于阈值的就是反例。可原创 2017-08-15 15:41:04 · 2715 阅读 · 0 评论 -
数据规范化
数据规范化的方法数据归一化数据归一化是指把数据压缩到[0,1]的区间内。1. Min-Maxsklearn.preprocessing.MinMaxScalar 将数据压缩到Min到Max组成的区间,并使其结果落在0到1的范围内。 x=x−minmax−minx = \frac{x-min}{max-min}2. z-scoresklearn.preprocessing.StandardScal原创 2017-08-15 15:29:40 · 1182 阅读 · 0 评论 -
异常检测
异常检测的目的是发现与大部分其他对象不同的对象。通常,异常对象被称作为离群点,因为在数据的散布图中,他们远离其他数据点。也通常被称为偏差检测,因为异常对象的属性值明显偏离期望值的或常见的属性值。异常检测也成为例外挖掘,因为异常在某种意义上是例外的。异常检测方法基于模型的技术许多异常检测的技术是首先建立一个模型。异常是那些同模型不能完美拟合的对象。如果使用回归模型,异常就是相对远远离预测值的对象。如果原创 2017-10-03 22:51:11 · 1145 阅读 · 0 评论
分享