
预处理
文章平均质量分 59
海滩上的那乌克丽丽
I can because i believe i can.
展开
-
matplotlib数据可视化
matplotlib库主要做数据可视化。代码举例:from matplotlib import pyplot as plt# 准备x轴的值x = range(2, 26, 2)# 准备y轴的值y = [12, 15, 13, 33, 44, 22, 21, 21, 23, 10, 12, 13]# 设置图片大小plt.figure(figsize=(20, 8), dpi=80)plt.plot(x, y)# 保存图片plt.savefig("./t1.png")#原创 2022-03-23 15:53:56 · 5568 阅读 · 0 评论 -
最大值最小值归一化&标准归一化(均值归一化,标准归一化)
最大值最小值归一化Xjmin是Xj所在列的最小值Xjmax是Xj所在列的最大值问题:能做到归一化(0-1zhi之间),但是一旦数据中有一个离群值(特别大的值)就会出现这个离群值做完归一化后特别趋近于1,而其他值特别趋近于0标准归一化经过处理的数据符合标准正态分布即均值为0,标准差为1Xmean:X所在列的均值Standard Deviation:X所在列的标准差标准差的公式会考虑到所有样本数据,所以受离群值影响会小一些。但是如果使用标准归一化不一定会把原创 2022-02-15 23:13:16 · 19779 阅读 · 0 评论 -
归一化(数据预处理)
归一化的目的:每个维度可能对应的数量及不同,例如年龄和收入,我们线性回归公式在计算机看来X1和X2并没有数量级的不同,都是一样的数据,不理解其中的含义所以θ1X1 = θ2X2,那么X1远远小于X2的话,有公式看来,θ1就远远大于θ2。那么有图像就可以看出来θ1要优化的距离就远远大于θ2要优化的距离。产生矛盾:因为X1 << X2那么θ1要调整的距离就远远大于θ2要调整的距离,由公式得g1远远小于g2,那么有梯度下降的公式可得η*g1 远.原创 2022-03-22 00:26:14 · 5485 阅读 · 0 评论 -
机器学习文本特征提取
1.特征工程直接影响模型预测结果。python用sklearn库做特征工程两种文本特征抽取方法(Count, tf-idf)(1)特征抽取API(统计单词次数)sklearn.feature_extractionpython调用sklearn.feature_extraction 的DictVectorizer实现字典特征抽取# 字典特征抽取def dictvec(): # 特征数据是字符串的话不能输入到算法里面,是要进行特征,转换的转换成OneHot编码。有利于机器学.原创 2022-03-17 17:26:23 · 2694 阅读 · 0 评论 -
升维与降维介绍以及代码实现
升维的目的:升维的目的是去解决欠拟合的问题,以提高模型的准确率为目的。多项式回归:是升维的一种,可以算是机器学习中的一种算法,不过和归一化一样一般算作数据预处理的手段,目的就是将已有维度进行相乘,包括自己和自己相乘,组成二阶甚至更高阶的维度。当数据X,y呈现一种非线性(X是二次方甚至更高阶)的关系时候,即y不是随着X线性变换的时候,我们有两种选择一:用非线性的算法(回归树,神经网络)拟合非线性的数据。二:用线性算法,但是需要将数据进行升维。例二阶多项式升维:原创 2022-02-20 23:43:45 · 7485 阅读 · 1 评论 -
机器学习对数据缺失值的处理方法
两种处理办法(1)删除:首先如果这一列或者一列的数据缺失值达到一定程度,建议放弃整行或整列。(2)一般我们建议做插补:可以通过缺失值的每行或者每列的平均值、中位数进行填充。(我们建议按照列进行填补)代码:from sklearn.impute import SimpleImputer# sklearn对缺失值处理def im(): # strategy='mean'按平均值填补,按照列计算 imputer = SimpleImputer(missing_value原创 2022-03-18 09:20:29 · 1545 阅读 · 0 评论