- 博客(8)
- 收藏
- 关注
原创 主成分分析(PCA)之人脸识别
主成分分析(Principal Component Analysis,PCA)是一种常见的无监督学习技术,常用于数据降维、特征提取和数据可视化。它的核心思想是通过正交变换将原始高维数据投影到一组新的正交坐标轴上,使得数据在这些坐标轴上的方差最大。这些新的坐标轴被称为主成分(Principal Components),且按方差大小排序。在PCA人脸识别实验中,通过对大量人脸图像数据集进行标准化处理,计算其协方差矩阵并进行特征值分解,获取主成分(特征脸)作为低维特征空间。
2025-06-06 14:28:33
928
原创 支持向量机之过滤垃圾邮件
其核心思想是通过寻找一个最优超平面(决策边界),将不同类别的数据样本尽可能分开,同时最大化样本与超平面之间的间隔,从而提高模型的泛化能力。将每个电子邮件转换为一个特征向量x∈Rⁿ,训练一个分类器来分类给定的电子邮件(x)是垃圾邮件(y=1)还是非垃圾邮件(y=0)。接下来继续在这个数据集上用高斯核训练SVM,绘制具有高斯核的SVM所找到的决策边界,该决策边界能够正确地分离大多数正负例子,并且很自然地遵循了数据集的轮廓。反之,对错误分类的惩罚较大,比较严格,错误分类少,间隔较小。
2025-06-02 19:57:05
1164
原创 Logistic回归模型
Logistic 回归是一种广义线性模型,它通过建立自变量(特征)与因变量(类别)之间的关系,来预测一个事件发生的概率。具体而言,它将线性回归模型的输出通过一个非线性的 Logistic 函数(或 Sigmoid 函数)映射到0到1的区间,从而得到样本属于某一类别的概率。本次实验围绕逻辑回归算法展开,旨在掌握数据处理与模型应用全流程,其原理基于逻辑回归二分类特性及梯度下降优化算法。实验结果表明,模型训练时代价函数值随迭代次数增加而逐渐减小,各类可视化图表直观展现了模型特性与效果,成功完成新样本预测。
2025-05-07 17:51:43
842
原创 朴素贝叶斯分类模型之西瓜分类
朴素贝叶斯是基于贝叶斯定理的一种简单的概率分类算法。它假设特征之间相互独立,即在给定类别标签的条件下,各个特征之间的取值是相互独立的,不受其他特征的影响。这个假设简化了计算,使得朴素贝叶斯算法在处理大规模数据时具有较高的效率。贝叶斯理论是基于贝叶斯定理发展起来的一系列统计学理论和方法。贝叶斯定理描述了在已知一些条件概率的情况下,如何计算另一些条件概率。因为0.022>4.945*10⁻⁵,所以朴素贝叶斯分类器将待测样本判别为“好瓜”。表示样本S具有n个特征,可能会有m中不同的分类结果。
2025-04-27 21:35:20
881
原创 基于ID3算法及C4.5算法的决策树模型
决策树是一种树形结构,由节点和边组成。其中节点分为内部节点和叶节点,内部节点表示一个特征或属性,叶节点表示一个类别或值(在分类问题中是类别,在回归问题中是连续值)。从根节点开始,对数据的特征进行测试,根据测试结果将数据划分到不同的子节点,直到数据被划分到叶节点,从而得到相应的预测结果。例如,在判断一个人是否适合贷款的问题中,决策树可能会根据年龄、收入、信用记录等特征进行逐步判断,最终得出 “适合” 或 “不适合” 贷款的结论。
2025-04-09 17:16:34
1137
原创 评估分类模型之绘制ROC曲线及PC曲线
模型评估是指在机器学习和其他相关领域中,对训练好的模型进行性能评估和分析的过程。其目的是衡量模型在实际应用中的表现,判断模型的优劣,以及确定模型是否能够满足特定的任务需求。PR 曲线和 ROC 曲线是评估分类模型性能的有效工具,它们从不同角度展示了模型在不同阈值下的表现。通过实验分析曲线的形状、AUC 值以及不同模型曲线的比较,可以深入了解模型的性能特点,为模型选择和优化提供有力支持,帮助在实际应用中根据具体需求选择最合适的模型和分类阈值。
2025-03-30 17:09:19
1014
原创 KNN算法之海伦约会问题
即一个样本的类别由与其最接近的 K 个邻居的类别所决定,通过统计这 K 个近邻中各类别出现的频率来预测未知样本的类别(分类任务),或者计算这 K 个近邻的目标值的平均值来得到未知样本的预测值(回归任务)。本次实验成功运用 KNN 算法解决了海伦约会问题,通过对数据的预处理、特征归一化以及模型的调优,有效地提高了模型的分类性能。根据分类后的三类特征数据,创建散点图,根据数据的分布情况,大致猜测海伦喜欢的类型。由于数据的单位不统一,结果容易受数值大的数据所影响,因此需要将数据归一化。
2025-03-24 22:00:51
1118
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅