一、通用变量处理
采用数据预处理模块,对原始文件进行标准化,其中一般标准差处理适合大部分场景,对NULL的处理也有一些
采用离散化处理模块,对原始文件或预处理后文件进行处理,可以选择全部分1-N,也可以针对不同变量离散化不一样,但是这个是比较粗糙的,因为orange做离散化是没有逻辑性,只有分频或者分层
二、特征工程
采用特征工程方式,可以对一些需要做如增速、环比等变量未必在数据处理时候做,也可以放到orange特征工程这个模块,方便快捷,而且可以随意处理。
1 if() else 0
yes,no
以上是特征工程的基本语法,()中的变量可以在特征库中筛选,这个工具还是对数据处理非常不错的。
三、发现和探索方式
混淆矩阵(confusion Martrix)可以帮助判断分类的情况,接入到scatter plot就可以发现正确、错误的分类是如何发生的;
Ranking这个包括信息增益和基尼增益,可以放到数据集上判断原始数据信息量,也可以放到test score模块后面,判断各个变量的对模型的影响情况
Datatable如果放到如逻辑回归等模型后面,可以帮助你来对每个变量的权重进行判断,从而拿到各个变量的影响值。
四、最后的关于AUC、F1、CA、召回率和精确率的再次解释;
所有模型其实都不是完美的,关键还是看应用场景所需要的、强调的内容,比如大夫判断癌症宁可错杀一千不能放掉一个,那么对召回率要求很高,反而对精确度一般;
而如分析采购或送礼品卷等行为,那么重要的分类准确,尽量让目标分类更多的可以完成我们预计的任务。
为了方便,以下专业名词都用英文替代了。本人留学狗,脑子不好使容易蹦英文单词,不喜勿喷哈。
准确率 - accuracy
精确率 - precision
召回率 - recall
F1值 - F1-score
ROC曲线下面积 - ROC-AUC (area under curve)
PR曲线下面积 - PR-AUC
可以参考原来博主文章:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?_Ritter Liu的专栏-优快云博客_auc f1