
数据预处理
weixin_42294517
这个作者很懒,什么都没留下…
展开
-
机器学习 数据预处理之独热编码
1、什么是独热编码让由0和1组成的占位符取表示每列特征,让不同样本之间相同特征之间的两两距离(两两差异)相同例: 特征1 特征2 特征3 数据集 1 3 2 7 5 4 1 8 ...原创 2020-02-13 14:58:02 · 1154 阅读 · 0 评论 -
机器学习 数据预处理之二值化
1、什么是二值化用0和1来表示样本矩阵中相对于某个给定阈值高于或者低于它的元素2、作用作用:一般用在图像处理 (将图像分成黑和白 常用的方法就是设定一个阈值T,用T将图像的数据分成两部分:大于T的像素群和小于T的像素群)3、示例代码import numpy as npsample = np.array([ [2, 4, 5, -1], [3, 1, 7, -2],...原创 2020-02-13 14:52:32 · 1723 阅读 · 0 评论 -
机器学习 数据预处理之归一化
1、什么是归一化为了用占比表示特征,每个样本的特征值除以该样本的特征值绝对值之和(对行《样本》操作),使得每个样本的特征值绝对值之和为1 (这里的一般可以在某个东西的增长率或者占比的时候使用)例如: python java C PHP2017 30 50 40 ...原创 2020-02-13 14:24:31 · 645 阅读 · 2 评论 -
机器学习数据预处理之范围缩放
1、什么是范围缩放 统一样本矩阵中的不同特征的最大值和最小值的范围。(一般都是0-1) 例如设样本集为X [0, 1, 2, 3,4, 5 ] 范围缩放到【0-1】后 X1 [0, 0.2, 0.4, 0.6, 0.8, 1]kmin+ b = min’ =0 原本特征中的最小值转换为0(每列特征的k.b都不一样)kmax+b = max’=1 原本特征中的...原创 2020-02-13 14:09:58 · 1492 阅读 · 0 评论