“当模型建立后,如何解释和分析模型,往往是科研中必不可很少的一部分。机器学习模型往往被成为黑箱子,如何在传统领域的分析方法上进行一定解释,是我们学者们要进一步探索的课题。我们在这里列举了不同的 EDA 方式,希望能够帮助模型解释,以及 EDA 分析的进一步建立。“
在随机森林模型建立之后,我们的模型可以被用于更高级的模型分析,当然这个都是在信任模型的基础上,如同科学实验中,我们通过线性回归得到一些特征关系,之后可以用来讨论对这些关系的认知以及对其他现象的理解,我们同样也能够从随机森林 RF 里面得到一些洞察,用以了解我们的数据库关系。
1. One-hot coding 还是 categorical coding
One-hot coding
上述就是 one hot coding 的示意图,每个子集都会单独的成立一列,用 1/0 来表示是不是属于这个列,实际操作的时候,你会发现这个部分就是把原先的列删掉之后,增加了跟 categories 数量一样多的列数。
def transfer_dummies(df, max_dummies=6)
''' Function to transfer dataframe df into dummies, where category number is less than max_dummies.
Input: df - dataframe, max_dummies - integer
Output: dataframe after transformation
'''
cols = df.select_dtypes(include='category')
change_col = []
for col in cols: