25、机器学习最佳实践、技巧与窍门

机器学习最佳实践、技巧与窍门

1. 数据预处理

1.1 检查数据范围与异常值

在处理数据时,首先要检查可能的输入数据范围,并查看是否存在异常值。若发现一个输入参数的尺度与另一个相差一个数量级,就需要对输入数据样本进行预处理。因为如果不处理,数值较大的输入数据特征会对训练过程产生显著影响,从而掩盖其他输入数据特征的贡献。而小数值输入数据产生的微弱信号,往往对找到成功的解决方案至关重要,它们能刻画底层过程中微妙但有价值的特征。

1.2 数据标准化

大多数机器学习算法在输入数据呈正态分布(即均值为零且单位方差为零)时效果更佳。常用的将输入数据缩放为均值为零、单位方差的方法由以下公式给出(原文档此处公式缺失)。

可以使用 Python 的 Scikit - learn 库对输入数据样本进行标准缩放,示例代码如下:

>>> from sklearn.preprocessing import StandardScaler
>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
StandardScaler(copy=True, with_mean=True, with_std=True)
>>> print(scaler.mean_)
[0.5 0.5]
>>> print(scaler.transform(da
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值