Kaggle实例-Titanic分析(二)-补全拟合_拟合方法可以补全数据吗-优快云博客

前言

　　本来是打算用一篇博客把完整的一次数据处理全部记录下来，但是无奈断（lan）电（ai）。同时也是为了写的更详（tuo）细（ta）一些，防止以后看不懂，所以我决定把三个大部分分开来写，同时，后面的内容我也打算这样处理希望各位大佬海涵。

———-我是逗逼的分割线———-

数据补充

　　上回书说到，船帆了，人挂了，大家各安天命了。（摔）。我们简单的对我们当前得到的数据进行了简单的分析，以此来找出我们最后训练时能够用到的特征值。我们用图或表进行了相关内容的可视化处理。一眼就能看出的赶脚，大概找出了几个可能有用的特征值：年龄（age）,性别（sex），乘客等级（Pclass），以及有可能有用的堂兄弟个数（SibSp），亲子个数（Parch）。
　　当然以上的内容都是我们结合图表大概分析得来，最终是否对训练有用当前我们是一概不知的。接下来可能有童鞋想说，我们是不是可以开始训练了?.当然不是。因为，我们在前文中说到过一个问题，那就是我们得到的数据是残缺的！（划重点）。残缺的啊有木有啊同志们。所以我们首先的当务之急是先要把我们所要使用的age选项来补齐。
　　那么问题又来了，我们该如何来补上这部分残缺的值呢？根据情况有这么两种方法
　　通常遇到缺值的情况，我们会有几种常见的处理方式

如果缺值的样本适中，而该属性非连续值特征属性(比如说类目属性)，那就把NaN作为一个新类别，加到类别特征中。如果缺值的样本适中，而该属性为连续值特征属性，有时候我们会考虑给定一个step(比如这里的age，我们可以考虑每隔2/3岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中。
如果缺值的样本占总数比例极高，我们可能就直接舍弃了，作为特征加入的话，可能反倒带入noise，影响最后的结果了
　　有些情况下，缺失的值个数并不是特别多，那我们也可以试着根据已有的值，拟合一下数据，补充上。
这里我们采用大佬推荐的一种scikit-learn中的RandomForest来拟合一下缺失的年龄数据

from sklearn.ensemble import RandomForestRegressor
def set_missing_ages(df):
    # 把已有的数值型特征取出来丢进Random Forest Regressor中
    age_df = df[['Age','Fare', 'Parch', 'SibSp', 'Pclass']
    # 乘客分成已知年龄和未知年龄两部分
    known_age = age_df[age_df.Age.notnull()].as_matrix()
    unknown_age = age_df[age_df.Age.isnull()].as_matrix()
    # y即目标年龄
    y = known_age[:, 0]
    # X即特征属性值
    X = known_age[:, 1:]
    # fit到RandomForestRegressor之中
    rfr = RandomForestRegressor(random_state=0, n_estimators=2000, n_jobs=-1)
    rfr.fit(X, y)
    # 用得到的模型进行未知年龄结果预测
    predictedAges = rfr.predict(unknown_age[:, 1::])