
机器学习
lvla_juan
这个作者很懒,什么都没留下…
展开
-
python数据预处理之数据标准化的几种处理方式使用场景
数据有噪声或者异常,使用标准化数据稳定,或对输出有要求使用归一化参见:https://www.zhihu.com/question/20455227/answer/370658612原创 2019-07-24 15:11:48 · 1707 阅读 · 0 评论 -
PAC为什么要提前进行标准化
PCA(主成分分析)所对应的数学理论是SVD(矩阵的奇异值分解)。而奇异值分解本身是完全不需要对矩阵中的元素做标准化或者去中心化的。但是对于机器学习,我们通常会对矩阵(也就是数据)的每一列先进行标准化。PCA通常是用于高维数据的降维,它可以将原来高维的数据投影到某个低维的空间上并使得其方差尽量大。如果数据其中某一特征(矩阵的某一列)的数值特别大,那么它在整个误差计算的比重上就很大,那么可以想象...原创 2019-07-24 15:25:06 · 1055 阅读 · 0 评论 -
log1p的使用
如果数据非正态,可以使用log1p进行正态化,方便后继的数据处理。可以看出,使用log1p后,数据明显正态化。查看log1p的文档,发现该函数并不是直接对目标数据取对数,而是加1后取对数。log1p(x) == log(x+1)这样的操作,主要是因为当x很小时,log(x)会出错。log(0)Traceback (most recent call last):File “”...原创 2019-07-24 16:41:27 · 4263 阅读 · 1 评论 -
训练数据集含有离群值时岭回归的表现
目的:测试岭回归在含有离群值(outlier)的训练数据集上训练的模型有什么异常行为。结论:训练集中如果有离群值,训练的模型交叉验证的得分比较差, 但模型在实际测试数据中(测试数据没有离群值)并没有表现的那么差。可见岭回归的鲁棒性还是不错的。所以,如果以后碰到类似的情况,大致可以判断出训练数据有离群值。import numpy as npimport matplotlib.pyplot a...原创 2019-08-16 17:33:36 · 555 阅读 · 0 评论