4、简单数据表示方法

简单数据表示方法

在机器学习中,数据的表示方式至关重要,它会直接影响模型的性能和训练效率。下面将介绍几种常见的简单数据表示方法。

1. 数值输入

大多数现代大规模机器学习模型(如随机森林、支持向量机、神经网络)都处理数值数据。如果输入是数值型的,可直接将其输入模型。

1.1 缩放的必要性

很多机器学习框架使用的优化器在处理[-1, 1]范围内的数值时表现更佳。因此,将数值缩放到该范围内有诸多好处:
- 收敛速度 :梯度下降优化器在损失函数曲率增加时需要更多步骤才能收敛。因为相对幅度较大的特征导数往往也较大,会导致权重更新异常。这种异常大的权重更新需要更多步骤才能收敛,从而增加计算负担。将数据“居中”到[-1, 1]范围可以使误差函数更接近球形,使用转换后的数据训练的模型往往收敛更快,训练成本更低。此外,[-1, 1]范围提供了最高的浮点精度。
- 特征敏感度 :一些机器学习算法和技术对不同特征的相对幅度非常敏感。例如,使用欧几里得距离作为邻近度量的k-means聚类算法会严重依赖幅度较大的特征。缺乏缩放也会影响L1或L2正则化的效果,因为特征的权重大小取决于该特征值的大小,不同特征受正则化的影响不同。通过将所有特征缩放到[-1, 1]之间,可以确保不同特征的相对幅度差异不大。

以下是一个使用scikit-learn内置数据集的测试代码,证明了缩放的有效性:

from sklearn import datasets, linear_model
import tim
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值