实用机器学习-随机森林如何作科研分析及讨论 EDA

“当模型建立后,如何解释和分析模型,往往是科研中必不可很少的一部分。机器学习模型往往被成为黑箱子,如何在传统领域的分析方法上进行一定解释,是我们学者们要进一步探索的课题。我们在这里列举了不同的 EDA 方式,希望能够帮助模型解释,以及 EDA 分析的进一步建立。“

在随机森林模型建立之后,我们的模型可以被用于更高级的模型分析,当然这个都是在信任模型的基础上,如同科学实验中,我们通过线性回归得到一些特征关系,之后可以用来讨论对这些关系的认知以及对其他现象的理解,我们同样也能够从随机森林 RF 里面得到一些洞察,用以了解我们的数据库关系。

1. One-hot coding 还是 categorical coding

One-hot coding

 

上述就是 one hot coding 的示意图,每个子集都会单独的成立一列,用 1/0 来表示是不是属于这个列,实际操作的时候,你会发现这个部分就是把原先的列删掉之后,增加了跟 categories 数量一样多的列数。

def transfer_dummies(df, max_dummies=6)

    ''' Function to transfer dataframe df into dummies, where category number is less than max_dummies.

    Input: df - dataframe, max_dummies - integer

    Output: dataframe after transformation

    '''

    cols = df.select_dtypes(include='category')

    change_col = []

    for col in cols:

   
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值