- 博客(5)
- 收藏
- 关注
原创 Python机器学习库sklearn数据预处理,数据集构建,特征选择
注:当使用独热编码对数据集进行编码时,必须小心其会带来的多重共线性,对于某些方法这可能会带来问题(例如那些需要进行矩阵求逆的方法)。删除之后特征信息仍然得到保存,因为观察到另外几种特征为零,就可知余下的观察结果为被删除的一列。目前,将不同的特征缩放到相同的区间有两种常用的方法:归一化和标准化。我们发现,执行上面的代码之后,Numpy阵列X的第一列现在有了新的颜色值,其编码格式如下。多数情况下,归一化指的是将特征的值放到区间[0,1],它是最小-最大缩放的一个特例。
2023-09-25 22:59:06
368
1
原创 DNN简介——西瓜数据集案例
最左边的是输入层,最右边的是输出层,中间是多个隐含层,输入层开始,从左往右计算,逐层往前直到输出层产生结果。如果结果值和目标值有差距,再从右往左算,逐层向后计算每个节点的误差,并且调整每个节点的所有权重,反向到达输入层后,又重新向前计算,重复迭代以上步骤,直到所有权重参数收敛到一个合理值。全连接神经网络(DNN)是一种多层无监督神经网络,并且将上一层的输出特征作为下一层的输入进行特征学习,通过逐层特征映射后,将现有空间样本的特征映射到另一个特征空间,以此来学习对现有输入具有更好的特征表达。
2023-09-13 22:05:05
2190
原创 机器学习常见无监督算法总结
无监督学习输入数据没有被标记,也没有确定的结果,样本数据类别未知,需要根据样本间的相似性对样本集进行分类。常用的无监督模型主要指各种聚类,主要有K均值聚类、层次聚类、密度聚类等。
2023-09-07 11:39:22
903
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人