yu1455256260-优快云博客

原创 PCA 降维：原理、推导、实现与应用

在高维空间中，PCA 会找到多个相互正交的主成分方向，按照数据在这些方向上的方差大小进行排序，选取方差较大的几个主成分方向，将数据投影到这些方向上，实现降维。在机器学习模型训练前，使用 PCA 对数据进行降维，可以减少特征数量，降低计算复杂度，同时去除一些冗余特征，提高模型的训练速度和泛化能力，防止过拟合。需要注意的是，在使用 PCA 时，要合理选择降维后的维度。这些特征向量构成了新的低维空间的基向量，特征值的大小反映了数据在对应特征向量方向上的方差大小，即数据在该方向上的信息含量。

2025-06-03 20:19:06 380

原创基于 SVM 的垃圾邮件过滤器实战指南

采用词袋模型（Bag-of-Words），构建 1899 维的二值特征向量：若单词在词汇表中存在，则对应位置设为 1，否则为 0。email = re.sub(r'http://|https://', 'httpaddr', email) # 统一网址表示。email = re.sub(r'<[^>]+>', ' ', email) # 去除HTML标签。email = re.sub(r'[^\w\s]', ' ', email) # 去除非单词字符。本次实验使用的数据集包含四个文件：。

2025-05-20 19:18:30 1451

原创机器学习中的朴素贝叶斯算法：原理、应用与实现

朴素贝叶斯算法会分别计算每个特征在各个类别下出现的概率，然后根据贝叶斯定理，结合这些特征的概率以及类别的先验概率，计算出该样本属于每个类别的后验概率，最终将样本归为后验概率最大的类别。通过计算每个类别下特征的均值和方差，来估计。伯努利朴素贝叶斯主要用于处理二值特征的情况，即特征只有两种取值，比如在文本分类中，只考虑单词是否在文档中出现，而不考虑出现的次数。通过对大量正常邮件和垃圾邮件的学习，算法能够根据邮件的内容特征（如关键词、发件人等）准确判断一封邮件是否为垃圾邮件，大大提高了邮箱的使用效率和安全性。

2025-04-22 00:16:32 371

原创 K 近邻算法（KNN）从入门到实战

KNN 是机器学习的 “Hello World” 算法，其核心在于 **“近邻即相似”** 的哲学思想。数据标准化：避免尺度影响。K 值调参：通过交叉验证选择最优值。距离度量：根据数据类型选择合适的距离公式。性能优化：处理大规模数据时使用近似算法。

2025-03-24 19:00:10 911

原创 Anaconda 安装与编译环境配置全攻略

本文详细介绍如何在 Windows/macOS/Linux 系统中安装 Anaconda，并构建高效的 Python 编译环境。包含虚拟环境管理、依赖安装、C++ 编译支持等实战技巧。

2025-03-10 20:06:54 823

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 PCA 降维：原理、推导、实现与应用

原创 基于 SVM 的垃圾邮件过滤器实战指南

原创 机器学习中的朴素贝叶斯算法：原理、应用与实现

原创 K 近邻算法（KNN）从入门到实战

原创 Anaconda 安装与编译环境配置全攻略

空空如也

空空如也

原创基于 SVM 的垃圾邮件过滤器实战指南

原创机器学习中的朴素贝叶斯算法：原理、应用与实现