
ML
文章平均质量分 93
阳光快乐普信男
这个作者很懒,什么都没留下…
展开
-
【ML】特征工程简介以及7种常用方法(续更)
1 特征工程简介本质上说,呈现给算法的数据应该能拥有基本数据的相关结构或属性 。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声的干扰,这样能够更好的找出趋势。但是,对于特征工程中引用的新特征,需要验证它的确提高了预测的准确度,而不是加入了一个无用的特征,不然只会增加算法运算的复杂度。好的特征甚至能够帮你实现使用简单的原创 2020-10-12 12:58:27 · 614 阅读 · 0 评论 -
【ML】sklearn的数据集
文章目录1 加载数据集1.1 自带数据集:`sklearn.datasets.load_`1.2 可下载数据集:`sklearn.datasets.fetch_`2 生成数据集2.1 make_blobs2.2 make_classification2.3 make_gaussian_quantiles2.4 make_hastie_10_22.5 make_circle & make_moonssklearn.datasets提供了大量的数据集功能,主要分为两类:加载数据集:大量现成的自.原创 2021-03-18 21:25:28 · 1073 阅读 · 0 评论 -
【ML】线性回归 の 数据标准化
文章目录1 What:数据标准化 vs 中心化2 Why:为什么要数据标准化3 When:什么时候做/不做数据标准化Do 数据标准化 的情况Undo 数据标准化 的情况线性回归无需标准化 の 数学证明线性回归无需标准化 の 实验证明不采用标准化采用标准化对比 标准化与无标准化 の 预测值4 其他:线性回归的易错点1 What:数据标准化 vs 中心化标准化: 数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的.转载 2021-11-30 18:17:09 · 3872 阅读 · 0 评论 -
【ML】线性回归 の 不受异常值影响的线性回归方案
文章目录问题发现解决方案Solution1:R/python Least Absolute Deviation(LAD)Solution2:python statsmodels RLMSolution3:python sklearn RANSACSolution4:python sklearn Theil-SenSolution5:python sklearn Huber Regression问题发现因为高频的数据波动性很大,经常出现坏点,于是思考如何对这样的坏点做linear regression.转载 2021-11-30 14:37:09 · 879 阅读 · 0 评论