【数据分析】笔记–数据预处理 — 数据标准化处理:z-score standardization
z-score数据标准化处理,是拟合模型前的数据预处理工作,属于数据变换,z-score是将数据缩放到[0,1]的区间,但并不会改变数据的排序和整体规律性(适用于监督学习)。
我在学习数据预处理的时候,一直有些疑惑,因为数据变换改变了值,使原本有意义的数值,变的没有实际意义,但又一想,数值的含义本就是人为的根据业务的定义,而机器是不理解这些人为定义的,对他来说没有意义。
其他的数据标准化处理,也都可以这样理解,就不会那么纠结了。更何况 即使有影响,这个影响也会在后面模型的训练学习过程中 慢慢弱化到很小。
以下是更贴切的描述:
这个缩放像一个人为的先验:即认为所有的特征的贡献是相同的。
“而随着学习不断的学习过程,数据被使用起来了。那么先验的影响会越来越小,最终我们还是可以学到不错的模型。在绝大部分时间来看,“相似的权重”这其实是个不错的先验,毕竟我们可能对于数据的理解是有限的,也不知道哪个特征更重要,默认相同的贡献是有道理的。”
知乎的一个作者关于这块写的挺好的,以下是链接,可以看下:
https://www.zhihu.com/question/427612824/answer/1554456942
总结
总之,不必深究,重在理解 解惑。
每天多一点理解,在学习的路上少迷糊一点。