简单数据表示方法
在机器学习中,数据的表示方式至关重要,它会直接影响模型的性能和训练效率。下面将介绍几种常见的简单数据表示方法。
1. 数值输入
大多数现代大规模机器学习模型(如随机森林、支持向量机、神经网络)都处理数值数据。如果输入是数值型的,可直接将其输入模型。
1.1 缩放的必要性
很多机器学习框架使用的优化器在处理[-1, 1]范围内的数值时表现更佳。因此,将数值缩放到该范围内有诸多好处:
- 收敛速度 :梯度下降优化器在损失函数曲率增加时需要更多步骤才能收敛。因为相对幅度较大的特征导数往往也较大,会导致权重更新异常。这种异常大的权重更新需要更多步骤才能收敛,从而增加计算负担。将数据“居中”到[-1, 1]范围可以使误差函数更接近球形,使用转换后的数据训练的模型往往收敛更快,训练成本更低。此外,[-1, 1]范围提供了最高的浮点精度。
- 特征敏感度 :一些机器学习算法和技术对不同特征的相对幅度非常敏感。例如,使用欧几里得距离作为邻近度量的k-means聚类算法会严重依赖幅度较大的特征。缺乏缩放也会影响L1或L2正则化的效果,因为特征的权重大小取决于该特征值的大小,不同特征受正则化的影响不同。通过将所有特征缩放到[-1, 1]之间,可以确保不同特征的相对幅度差异不大。
以下是一个使用scikit-learn内置数据集的测试代码,证明了缩放的有效性:
from sklearn import datasets, linear_model
import tim
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



