- 博客(8)
- 收藏
- 关注
原创 PCA实现人脸识别
PCA人脸识别优点:1.降维效果显著:PCA能够有效地降低数据的维度,减少计算复杂度,提高识别效率。2.保留主要特征:PCA通过选择方差最大的方向作为主成分,能够保留数据的主要特征,提高识别准确率。3.无监督学习:PCA是一种无监督的降维技术,不需要标注数据,适用于大规模人脸数据集的处理。4.数学基础坚实PCA的数学原理清晰,易于理解和实现。PCA作为一种经典的降维技术,在人脸识别中发挥着重要作用。然而,PCA也存在一些局限性,如线性变换限制、对光照和姿态敏感等。
2025-06-16 20:57:37
1439
原创 用SVM进行垃圾邮件分类
支持向量机是一种强大的监督学习算法,广泛用于分类和回归任务。SVM的核心思想是找到一个最优的超平面,将不同类别的数据点最大化地分开。分类超平面:在二维空间中,超平面是一条直线;在三维空间中,超平面是一个平面;在高维空间中,超平面是一个更高维度的平面。SVM的目标是找到这样一个超平面,使得两个类别之间的间隔最大化。间隔:间隔是指数据点到超平面的最小距离。SVM试图最大化这个间隔,以提高分类的鲁棒性。支持向量:支持向量是距离超平面最近的数据点,它们决定了超平面的位置和方向。1.2 SVM的数学原理。
2025-06-02 20:24:08
456
原创 逻辑回归实验
1.1逻辑回归定义原理逻辑回归(Logistic Regression)是一种用于二分类问题的统计学习方法。尽管其名称中包含“回归”,但实际上它是一种分类算法。逻辑回归通过Sigmoid函数(也称为Logistic函数)将线性回归的输出映射到概率空间,从而实现分类任务。Sigmoid函数的公式为:其中,z 是线性回归的输出,σ(z) 表示样本属于正类的概率。逻辑回归的优缺点简单高效:模型参数少,训练速度快,适合大规模数据。可解释性强:系数直接反映特征对分类的影响方向与强度。输出概率。
2025-05-19 20:29:30
495
原创 基于朴素贝叶斯分类器的西瓜数据集分类
优点:计算过程相对简单,易于实现;在处理大规模数据集时,朴素贝叶斯分类器表现出较高的效率等缺点:朴素贝叶斯分类器假设特征之间相互独立,这一假设在现实中往往不成立。当特征之间存在较强的相关性时,分类器的性能可能会受到影响等朴素贝叶斯分类器是一种基于贝叶斯定理的简单而高效的分类算法。它通过计算样本属于各个类别的后验概率,选择后验概率最大的类别作为预测结果。尽管朴素贝叶斯分类器假设特征之间相互独立,这一假设在现实中往往不成立,但在许多实际应用中,它仍然能够取得较好的分类效果。
2025-05-05 20:58:37
420
原创 机器学习--决策树
决策树是一种树形结构的机器学习算法,用于分类和回归任务。它通过递归地分割数据集,形成一棵二叉树或多叉树。每个内部节点表示一个特征上的测试,每个叶节点表示一个类别或回归值。决策树具有可读性强、易于解释和训练速度快等优点,尤其适合处理结构化数据。常用的特征选择及对应算法:信息增益——ID3算法信息增益率——C4.5算法基尼系数——CART算法决策树以树状结构呈现,每个节点表示一个特征,分支表示决策路径,最终叶子节点给出分类或回归结果。通过图形化展示,用户可以快速理解模型的决策逻辑;
2025-04-21 22:39:49
1426
原创 实验(三)基于Knn算法绘制PR与ROC曲线
ROC曲线是用于评估二分类模型性能的可视化工具,通过量化模型在不同分类阈值下的真正例率(TPR)与假正例率(FPR)的权衡关系,全面反映模型的判别能力。(2)将测试集中的样本按预测概率从高到低排序,然后将排序后的每个预测概率作为候选阈值,从最高值(如0.99)逐步降至0,逐点计算TPR与FPR.分类模型输出样本为正例的概率,通过调整分类阈值(从1到0逐步降低),生成不同阈值下的(FPR, TPR)点。精确率(Precision):表示预测为正例的样本中真实正例的比例。若要绘制其图形需先了解混淆矩阵。
2025-04-07 18:34:02
330
原创 K近邻算法
我们很容易发现,当计算样本之间的距离时数字差值最大的属性对计算结果的影响最大,也就是说,每年获取的飞行常客里程数对于计算结果的影响将远远大于上表中其他两个特征-玩视频游戏所耗时间占比和每周消费冰淇淋公斤数的影响。相反,较大的K值会使分类器考虑更多邻居,对噪声不那么敏感,模型相对简单,但可能导致欠拟合,无法准确捕捉数据的细微特征。- 选择距离最近的K个样本。K近邻算法的核心思想是通过计算待分类样本与训练集中各个样本的距离,找到距离最近的K个样本,然后根据这K个样本的类别或值来预测待分类样本的类别或值。
2025-03-24 21:35:35
1689
原创 Anaconda的安装下载
它集成了Python解释器、常用的数据科学库(如NumPy、Pandas、SciPy、Matplotlib等)以及一个强大的包管理器——conda。(1)搜索cmd然后在命令提示符中输入命令conda--version若输出版本号就安装成功了。(2)在系统变量中找到Path再点击编辑然后点击新建把文件位置添加到里面去。(5)选择中间的选项Rigister然后点击Install。(3)选择All Users然后点击next。(1)找到编辑系统环境变量然后点击环境变量。(4)选择你安装的位置然后点击next。
2025-03-10 20:21:43
261
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅