- 博客(6)
- 收藏
- 关注
原创 numpy.where() 用法详解
numpy.where (condition[, x, y]) numpy.where() 有两种用法:1. np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。 如果是一维数组,相当于[xv if c else yv for (c,xv,yv) in zip(condition,x,y)]>>> a...
2018-04-22 19:04:36
18513
原创 Kaggle竞赛 —— 房价预测 (House Prices)
完整代码见kaggle kernel 或 Github比赛页面:https://www.kaggle.com/c/house-prices-advanced-regression-techniques这个比赛总的情况就是给你79个特征然后根据这些预测房价 (SalePrice),这其中既有离散型也有连续性特征,而且存在大量的缺失值。不过好在比赛方提供了data_descriptio...
2018-03-24 19:34:56
18819
5
原创 机器学习之类别不平衡问题 (2) —— ROC和PR曲线
机器学习之类别不平衡问题 (1) —— 各种评估指标 机器学习之类别不平衡问题 (2) —— ROC和PR曲线完整代码ROC曲线和PR(Precision - Recall)曲线皆为类别不平衡问题中常用的评估方法,二者既有相同也有不同点。本篇文章先给出ROC曲线的概述、实现方法、优缺点,再阐述PR曲线的各项特点,最后给出两种方法各自的使用场景。 ROC曲线 ROC曲线...
2018-03-17 19:14:03
4825
1
原创 机器学习之类别不平衡问题 (1) —— 各种评估指标
机器学习之类别不平衡问题 (1) —— 各种评估指标 机器学习之类别不平衡问题 (2) —— ROC和PR曲线 在二分类问题中,通常假设正负类别相对均衡,然而实际应用中类别不平衡的问题,如100, 1000, 10000倍的数据偏斜是非常常见的,比如疾病检测中未患病的人数远超患病的人数,产品质量检测中合格产品数量远超不合格产品等。在检测信用卡欺诈问题中,同样正例的数目稀少,而且正例的数量会...
2018-03-12 18:56:46
1670
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人