leo_ksa-优快云博客

原创 PCA实现图片降维

本次PCA实验让我深入理解了数据降维的实际应用。我在ORL人脸数据集上实现了图像降维处理，将原本的像素数据压缩到50个主要特征维度。重建后的图像虽然细节略有模糊，但人脸的主要特征依然清晰可辨。

2025-06-07 20:58:38 777

原创支持向量机SVM

通过本次实验，我掌握了SVM用于垃圾邮件分类的流程，将邮件向量化，以线性核训练模型。实验中体会到SVM在分类中的优势，训练测试准确率较高，能分清垃圾和正常邮件。后续可以尝试优化邮件文本的预处理来提高模型性能。

2025-05-31 13:07:04 891

原创 Logistic回归

本次实验通过代码实现 Logistic 回归模型，Sigmoid 函数将线性组合转化为概率值，梯度下降算法迭代优化权重参数形成线性决策边界。可视化结果表明，模型能有效分类线性可分数据，但对部分非线性分布数据存在局限性，体现了线性模型的本质特征。实验加深了我对logistic等分类模型工作原理的理解，为后续学习其他分类器提供了实践基础。

2025-05-17 18:41:43 878

原创贝叶斯分类

通过本次实验，我实现了西瓜分类的朴素贝叶斯模型：利用贝叶斯公式将样本特征与类别标签的关联转化为后验概率计算，经过计算后，通过比较概率来实现分类的功能。通过交互式输入来输入数据，对模型的分类功能进行验证。

2025-05-03 15:34:10 618

原创决策树构建

熵是信息论中衡量随机事件不确定性的核心概念，描述了一个系统或变量结果的“混乱程度”或“未知性”。简单来说，熵值越高，意味着结果的不确定性越强；熵值越低，结果越确定。

2025-04-20 15:00:49 948

原创机器学习模型评估

根据任务类型和数据特征可以选取不同的评估指标常用指标包括：准确率 / 错误率：整体预测正确性。精确率 / 召回率 / F1：平衡正负样本的评估。ROC-AUC：综合反映模型区分能力。ROC 曲线是一种通过假正率（FPR）和真正率（TPR）评估分类模型性能的可视化工具。其横轴为 FPR，纵轴为 TPR，曲线上的每个点对应模型在不同分类阈值下的 FPR 和 TPR 组合。

2025-04-03 20:47:58 1055

原创 K-近邻算法

K-近邻算法（K-Nearest Neighbor，简称KNN）是一种基本且简单的分类算法。K-近邻算法的思想是通过计算新数据点与训练数据集中各个数据点的距离，找到距离最近的K个数据点，然后根据这K个邻居的类别来预测新数据点的类别。

2025-03-23 14:38:01 1186

原创 Conda的安装及环境配置

Anaconda是开源Python发行版，专为数据科学和机器学习设计，预装1500+科学计算库（如NumPy、Pandas），集成Jupyter Notebook、Spyder等工具。其核心Conda包管理器支持跨平台环境隔离，简化依赖管理与多版本库共存，避免系统污染。

2025-03-08 16:48:47 1088

leo_ksa的博客