Orange做机器学习特征工程

一、通用变量处理

采用数据预处理模块,对原始文件进行标准化,其中一般标准差处理适合大部分场景,对NULL的处理也有一些

采用离散化处理模块,对原始文件或预处理后文件进行处理,可以选择全部分1-N,也可以针对不同变量离散化不一样,但是这个是比较粗糙的,因为orange做离散化是没有逻辑性,只有分频或者分层

二、特征工程

采用特征工程方式,可以对一些需要做如增速、环比等变量未必在数据处理时候做,也可以放到orange特征工程这个模块,方便快捷,而且可以随意处理。

1 if() else 0

yes,no

以上是特征工程的基本语法,()中的变量可以在特征库中筛选,这个工具还是对数据处理非常不错的。

三、发现和探索方式

混淆矩阵(confusion Martrix)可以帮助判断分类的情况,接入到scatter plot就可以发现正确、错误的分类是如何发生的;

Ranking这个包括信息增益和基尼增益,可以放到数据集上判断原始数据信息量,也可以放到test score模块后面,判断各个变量的对模型的影响情况

Datatable如果放到如逻辑回归等模型后面,可以帮助你来对每个变量的权重进行判断,从而拿到各个变量的影响值。

四、最后的关于AUC、F1、CA、召回率和精确率的再次解释;

所有模型其实都不是完美的,关键还是看应用场景所需要的、强调的内容,比如大夫判断癌症宁可错杀一千不能放掉一个,那么对召回率要求很高,反而对精确度一般;

而如分析采购或送礼品卷等行为,那么重要的分类准确,尽量让目标分类更多的可以完成我们预计的任务。

为了方便,以下专业名词都用英文替代了。本人留学狗,脑子不好使容易蹦英文单词,不喜勿喷哈。

准确率 - accuracy

精确率 - precision

召回率 - recall

F1值 - F1-score

ROC曲线下面积 - ROC-AUC (area under curve)

PR曲线下面积 - PR-AUC

可以参考原来博主文章:精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?_Ritter Liu的专栏-优快云博客_auc f1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值