机器学习:7个步骤-2-数据预处理-异常值处理

本文介绍了在数据预处理阶段如何判断和处理异常值,包括字符串型和数值型数据的异常值检测。针对数值型数据,通过均值和标准差、上四中位数和下四中位数以及箱线图进行异常值分析。最后,文章提到了一种常见的异常值处理方法,即用数据的最大最小值替换异常值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

异常值的判断

字符串型

# 这是使用语法,模糊匹配
train_data['Sex'][2] = 'qqqzzz'
print(train_data['Sex'][2])
print(1, ' = '*50 + '\n', "是否有包含q或者z的值:", any(train_data['Sex'].str.contains('q|z')))

# 也可以用正则
re_par = 'q|z'
print(2, ' = '*50 + '\n', "是否有包含q或者z的值:", any(train_data['Sex'].str.contains(re_par)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值