机器学习之异常检测算法

本文介绍了机器学习算法建模流程,包括数据获取、训练集与测试集划分、模型训练以及性能度量指标,如TP、FP、TN、FN、Precision、Recall和Accuracy。还探讨了数据集类不平衡问题,提出了下采样和过采样策略,特别是SMOTE算法用于合成少数类样本。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习算法建模流程:

  • 1.获取数据,并数据清洗;
  • 2.数据集分为训练集和测试集
  • 3.建模机器学习模型;
  • 4.训练模型:k折交叉验证,就是将训练集随机分为K份,然后,我们依次选择其中的k-1份来进行训练,剩下的1份用来进行测试,循环k次(每次组合的K-1份都不相同)
  • 5.通过训练出的模型去测试测试集数据

介绍几种常用的性能度量的指标

下面来说下解释下TP,FP,TN和FN

TP(True Positive):真正例,即将一个实际为正例的样本正确的判断为正例

FP(False Positive):假正例,即将一个实际为负例的样本错误的判断为正例

TN(True Negtive):真负例,即将一个实际为负例的样本正确的判断为负例

FN(False Negtive):假负例,即将一个实际为正例的样本错误的判断为负例

查准率(Precision):

预测为正例的样本中,实际为正例所占的比例,公式为: Precision=TP/(TP+FP)

查全率(也叫做召回率)(Recall):

正确预测为正例的样本数占所有正例的比率,公式为: Recall=TP/(TP+FN)

准确率(Accuracy):

所有样本中,预测正确的所占的比例,公式为: Accuracy=TP+TN/(TP+FP+TN+FN)

数据集类不平衡问题采样方法

类不平衡是说在训练分类器模型时,样本集中的类别分布不均匀,比如上面那个问题,300000个数据,理想情况下,应该是正负样本数量近似相等;而像上面正样本300000个,负样本只有500个,这个就存在严重的类不平衡问题。

为啥要避免这个问题呢?从训练模型的角度来说,如果某类的样本数量很少,那么

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值