kaggle学习
toast and f**k all
会稽愚妇轻买臣,余亦辞家西入秦。
仰天大笑出门去,我辈岂是蓬蒿人。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kaggle Titanic Competition-第二部分
好的,接着上一部分,继续第二部分–缺失值处理。几乎对每一个复杂数据集,都存在缺失或是错误的数据,这就像人类的死亡,还有上税。一些预测模型本身就能够处理缺失的数据(如神经网络),然而其他模型则需要单独处理缺失值。scikit-learn库中的 RandomForestClassifier模型内部并不能处理缺失值,所以在训练模型之前我们需要一些不同的方法来为缺失值分配具体数据。以下是几种处理缺失值的方法原创 2015-12-29 20:04:21 · 786 阅读 · 0 评论 -
Kaggle Titanic Competition-第三部分
接着看第三部分–数据转换。文章翻自http://www.ultravioletanalytics.com/2014/10/30/kaggle-titanic-competition-part-i-intro/。由于本人能力有限,编写有不当之处,还请大家多多指正,大家共同学习!!在前面两部分,我们已经知道如何读入数据以及处理缺失值,接下来就要将变量数值转换成能适应所选取的模型的格式化特征。Random原创 2016-01-05 22:14:57 · 918 阅读 · 0 评论 -
Kaggle Titanic Competition-第四部分
接下来继续第四部分,即特征工程中的派生变量。派生变量,顾名思义,指的就是通过一个或多个已存在的变量而产生出的新的变量。前面,我们已经探讨过如何通过最简单的数据转换来产生有价值的派生变量,现在我们来看看通过更复杂的数据变换得到的一些有意思的派生变量。特征工程里一项重要的内容就是充分运用观察力和创造力来发现新的特征以适应训练模型。这个过程可以说是数据科学里最应该花时间和精力的一部分了,而最基本的数据变换原创 2016-01-12 13:23:32 · 914 阅读 · 0 评论 -
Kaggle Titanic Competition-第一部分
作为一个kaggle的入门级玩家,首要的事情当然是读代码,熟悉库,模仿老玩家了。 首先要做的事情就是熟练掌握完成一项竞赛是怎样一个流程,以kaggle-titanic为例,进行初步学习。 文章翻自http://www.ultravioletanalytics.com/2014/10/30/kaggle-titanic-competition-part-i-intro/。由于本人能力有限,编写有不原创 2015-12-28 22:01:52 · 1241 阅读 · 0 评论
分享