实用机器学习-随机森林如何作科研分析及讨论 EDA

最新推荐文章于 2024-03-21 17:23:16 发布

原创

最新推荐文章于 2024-03-21 17:23:16 发布 · 459 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #kaggle #随机森林

“当模型建立后，如何解释和分析模型，往往是科研中必不可很少的一部分。机器学习模型往往被成为黑箱子，如何在传统领域的分析方法上进行一定解释，是我们学者们要进一步探索的课题。我们在这里列举了不同的 EDA 方式，希望能够帮助模型解释，以及 EDA 分析的进一步建立。“

在随机森林模型建立之后，我们的模型可以被用于更高级的模型分析，当然这个都是在信任模型的基础上，如同科学实验中，我们通过线性回归得到一些特征关系，之后可以用来讨论对这些关系的认知以及对其他现象的理解，我们同样也能够从随机森林 RF 里面得到一些洞察，用以了解我们的数据库关系。

1. One-hot coding 还是 categorical coding

One-hot coding

上述就是 one hot coding 的示意图，每个子集都会单独的成立一列，用 1/0 来表示是不是属于这个列，实际操作的时候，你会发现这个部分就是把原先的列删掉之后，增加了跟 categories 数量一样多的列数。

def transfer_dummies(df, max_dummies=6)

    ''' Function to transfer dataframe df into dummies, where category number is less than max_dummies.

    Input: df - dataframe, max_dummies - integer

    Output: dataframe after transformation

    '''

    cols = df.select_dtypes(include='category')

    change_col = []

    for col in cols: