- 博客(7)
- 收藏
- 关注
原创 PCA(主成分分析)
PCA旨在通过找到数据中的主要成分(方差最大的方向),来减少数据的维度,同时尽量保留数据的信息。通过降维,可以简化数据分析和可视化过程,去除噪声和冗余信息,以及改善模型的性能。PCA的主要思想是将原始数据映射到一个新的坐标系中,使得数据在新坐标系下的方差最大化,从而实现数据的降维。它在数据预处理、特征提取和可视化等领域有着广泛的应用,是许多机器学习和数据分析任务中不可或缺的工具之一。
2024-06-19 21:50:07
965
原创 机器学习——支持向量机
支持向量机(Support Vector Machine, SVM)是一种二分类模型,其目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化。当训练样本线性可分时,SVM通过硬间隔最大化来学习一个线性可分支持向量机。当训练样本近似线性可分时,SVM通过软间隔最大化来学习一个线性支持向量机,这允许一些样本出现在间隔边界内部。当训练样本线性不可分时,SVM利用核技巧和软间隔最大化来学习一个非线性支持向量机,通过将数据映射到高维空间来实现非线性分类。
2024-06-11 00:06:00
992
原创 逻辑回归(Logistic Regression)
逻辑回归是一种常用的统计学习方法,用于解决分类问题。尽管名字中带有"回归"一词,但逻辑回归其实是一种分类算法。逻辑回归的主要是通过Sigmoid函数,将输入特征的线性组合映射到0到1之间的概率值,然后根据这个概率值来进行分类判定。通常当概率大于0.5时,被分类为正类;当概率小于等于0.5时,被分类为负类。
2024-05-28 01:44:30
684
1
原创 朴素贝叶斯
朴素贝叶斯(Naïve Bayes, NB)算法,是一种基于贝叶斯定理与特征条件独立假设的分类方法。朴素:特征条件独立;贝叶斯:基于贝叶斯定理。
2024-05-14 16:59:21
320
1
原创 机器学习-决策树
在决策树的构建过程中,信息增益指导着选择在哪个特征上进行划分。信息增益越大,说明使用该特征进行划分后,数据集的纯度提升得越多。在决策树的构建过程中,基尼指数被用来选择最佳的划分特征。基尼指数越低,说明使用该特征进行划分后,数据集的纯度提升得越多。剪枝的目标是通过移除一些节点或子树来降低模型的复杂度,同时保持或提高模型的性能。通过选择最佳的特征来划分数据集,使得划分后各个子集的纯度尽可能高。子节点的熵越低,代表划分后的数据集越纯净。基尼指数越低,表示数据集的纯度越高,即样本属于同一类别的概率越大。
2024-04-29 23:47:27
295
原创 knn算法学习
1.安装库出现的各种问题,最后选择在虚拟环境中完成实验。首先,导入数据集然后显示数据并以直方图显示占比。计算出各个K值的准确率然后再画出折线图。2.各种函数以及数据集导入出现的问题。然后对数据进行归一化。再划分测试集和训练集。
2024-04-02 18:00:11
217
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人