Orange做机器学习特征工程

最新推荐文章于 2025-04-09 16:16:53 发布

阿明 -李明

最新推荐文章于 2025-04-09 16:16:53 发布

阅读量744

点赞数

文章标签：机器学习人工智能数据挖掘算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44094615/article/details/121897268

版权

一、通用变量处理

采用数据预处理模块，对原始文件进行标准化，其中一般标准差处理适合大部分场景，对NULL的处理也有一些

采用离散化处理模块，对原始文件或预处理后文件进行处理，可以选择全部分1-N，也可以针对不同变量离散化不一样，但是这个是比较粗糙的，因为orange做离散化是没有逻辑性，只有分频或者分层

二、特征工程

采用特征工程方式，可以对一些需要做如增速、环比等变量未必在数据处理时候做，也可以放到orange特征工程这个模块，方便快捷，而且可以随意处理。

1 if() else 0

yes,no

以上是特征工程的基本语法，（）中的变量可以在特征库中筛选，这个工具还是对数据处理非常不错的。

三、发现和探索方式

混淆矩阵(confusion Martrix)可以帮助判断分类的情况，接入到scatter plot就可以发现正确、错误的分类是如何发生的；

Ranking这个包括信息增益和基尼增益，可以放到数据集上判断原始数据信息量，也可以放到test score模块后面，判断各个变量的对模型的影响情况

Datatable如果放到如逻辑回归等模型后面，可以帮助你来对每个变量的权重进行判断，从而拿到各个变量的影响值。

四、最后的关于AUC、F1、CA、召回率和精确率的再次解释；

所有模型其实都不是完美的，关键还是看应用场景所需要的、强调的内容，比如大夫判断癌症宁可错杀一千不能放掉一个，那么对召回率要求很高，反而对精确度一般；

而如分析采购或送礼品卷等行为，那么重要的分类准确，尽量让目标分类更多的可以完成我们预计的任务。

为了方便，以下专业名词都用英文替代了。本人留学狗，脑子不好使容易蹦英文单词，不喜勿喷哈。

准确率 - accuracy

精确率 - precision

召回率 - recall

F1值 - F1-score

ROC曲线下面积 - ROC-AUC （area under curve）

PR曲线下面积 - PR-AUC

可以参考原来博主文章：精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么？_Ritter Liu的专栏-优快云博客_auc f1

博客等级

码龄7年

32
原创

82
点赞

109
收藏

39
粉丝

关注

私信

热门文章

上一篇：: 企业风险识别的KMV的靠谱结果模型-经过多次验证

下一篇：: 重新安装bert 采用tensor1.x

最新评论

Docker 安装成功后，安装 Dify 中文版本的步骤
阿明 -李明: 截至 2025 年 3 月，在 Gitee 上搜索到Dify 项目，你可以使用以下命令从 Gitee 克隆 Dify 项目： bash git clone https://gitee.com/langgenius/dify.git 使用 Gitee 镜像可能会大大提高克隆速度，因为其服务器在国内，网络连接更稳定和快速。
安装tensorflow-gpu-2.6
小木_清风般的过去: 感谢博主，非常有帮助！
Unbuntu中文语言错乱问题
阿明 -李明: 继续增加输入： sudo apt install ibus sudo apt-get install ibus-pinyin 启动选择拼音作为输入： iibus-setup ibus-setup
langchain下的安装步骤GLM
阿明 -李明: 引用「conda create -n langchain-chatglm python==3.10.4」 jupyter notebook # or jupyter notebook --allow-root
关于AB测试的效果推论
阿明 -李明: # 利用python 进行AB测试检验，发现测试数据之间的关系 from scipy.stats import ttest_ind import numpy as np # n1_samples = [64.2, 28.4, 85.3, 83.1, 13.4, 56.8, 44.2] # n2_samples = [45, 29.5, 32.3, 49.3, 18.3, 34.2, 43.9] n1_samples = np.array([[1,1.2],[1.03,1.03],[1.2,1.02],[0.89,0.95],[0.92,0.89]]) n2_samples = np.array([[2,2.1],[2.13,2.53],[3.23,2.22],[1.9,2.95],[1.95,1.89]]) p1 = np.array([0.05,0.05]) p2 = np.array([0.01,0.01]) print("标准差", np.std(n1_samples)) print("标准差", np.std(n2_samples)) # 独⽴双样本 t 检验的⽬的在于判断两组样本之间是否有显著差异： # 当我们使⽤scipy.stats.ttest_ind(x, y)，我们建⽴的假设是在x.mean()-y.mean()，但常为了得到正值结果，我们常会要求x.mean()>y.mean()。 # 即放置顺序是(n1_samples, n2_samples)，⽽不是(n2_samples, n1_samples) t_val, p = ttest_ind(n1_samples, n2_samples) print('t值：',t_val," p值：", p) if (p < p2).all() : print("2个数组之间重大差异，可以视为模型对数据结果影响度非常大") elif (p < p1).all() : print("2个数组之间有差异，,可以视为模型对数据结果影响度比较大") else: print("2个数组之间没有差异")

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。