Approaching (Almost) Any Machine Learning Problem | Abhishek Thakur—翻译

本文介绍了构建机器学习模型的完整流程,从数据预处理、标签类型、评价指标选择,到数据分割、特征工程和模型选择。重点讨论了数据转换、分类与回归问题的标签类型、常用库和机器学习框架,以及防止过拟合的数据分割策略。文章还涵盖了特征选择、模型堆叠和超参数优化等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据

在建立机器学习模型之前,已有数据j必需被转换成一个表格形式。这个过程是花费时间最长也是最难的,具体流程图如下:
这里写图片描述
Data Munging:数据清洗
Data Conversion:数据转换
现在数据挖掘模型就可以应用在数据表格上了。数据表格是数据挖掘或者机器学习数据最常见的表现形式。现在我们有一个数据表格,数据表格中有数据X和其对应的标签y。标签根据问题类型可以是一列或者多列。

标签种类

标签有很多种类型,比如:
单列标签,二进制(分类问题)
单列标签,实数(回归问题,预测一个值)
多列标签,二进制(分类问题,一个sample属于一类,但是有不同的属性)
多列标签,实数(回归问题,预测多个值)
多标签(分类问题,一个sample可以同时属于好多个类)

评价指标

必须要知道怎么评价我们的结果啊~balala~例如,在一个倾斜的二元分类问题中,我们通常AUC来评价(具体评价指标可以看看https://www.zhihu.com/question/30643044)在多标签(回归问题)或者多种类型分类问题中,我们一般选择交叉熵或多类对数损失和平均平方误差。

基本库:
numpy
scipy
pandas
scikit-learn
xgboost(树)
keras(神经网络)
matplotlib
tqdm

机器学习框架

这里写图片描述
图片中的粉色线条是最常用的流程。在我们把数据提取简化成一个表格形式之后,我们可以开始建立机器学习模型了。
第一步是通过Labels明确问题的类型。balala~~~就是上面讲的那些~一旦我们确定了问题的类型,我们把数据分成两个部分,一个training set和一个validation set。如下图:
这里写图片描述
备注:数据的分割必须根据labels。任何分类问题,通过分分层分割(stratified splittin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值