正文
数据特征归一化是为了将不同尺度的特征转换到相同的范围(如[0,1]),避免某些特征对模型的影响过大。归一化可以加速算法的收敛,尤其对于依赖距离度量的算法(如K近邻、支持向量机),确保模型训练更加稳定和高效。此外,归一化有助于避免特征尺度差异导致的偏差,从而提升模型的准确性和泛化能力。
特征量纲对样本点间距离计算的影响:
对于以上数据表中反应的样本情况,我们可以观察到样本的第一个特征(肿瘤大小)在两样本中有555倍的差值,第二特征(发现天数)只有222倍差值。但是直接计算量样本点的距离(如欧式距离) eluc.dist=(1−5)2+(200−100)2eluc.dist= \sqrt {(1-5)^2 + (200-100)^2}eluc.dist=(1−5)2+(200−100)