- 博客(5)
- 收藏
- 关注
原创 PCA 降维:原理、推导、实现与应用
在高维空间中,PCA 会找到多个相互正交的主成分方向,按照数据在这些方向上的方差大小进行排序,选取方差较大的几个主成分方向,将数据投影到这些方向上,实现降维。在机器学习模型训练前,使用 PCA 对数据进行降维,可以减少特征数量,降低计算复杂度,同时去除一些冗余特征,提高模型的训练速度和泛化能力,防止过拟合。需要注意的是,在使用 PCA 时,要合理选择降维后的维度。这些特征向量构成了新的低维空间的基向量,特征值的大小反映了数据在对应特征向量方向上的方差大小,即数据在该方向上的信息含量。
2025-06-03 20:19:06
380
原创 基于 SVM 的垃圾邮件过滤器实战指南
采用词袋模型(Bag-of-Words),构建 1899 维的二值特征向量:若单词在词汇表中存在,则对应位置设为 1,否则为 0。email = re.sub(r'http://|https://', 'httpaddr', email) # 统一网址表示。email = re.sub(r'<[^>]+>', ' ', email) # 去除HTML标签。email = re.sub(r'[^\w\s]', ' ', email) # 去除非单词字符。本次实验使用的数据集包含四个文件:。
2025-05-20 19:18:30
1451
原创 机器学习中的朴素贝叶斯算法:原理、应用与实现
朴素贝叶斯算法会分别计算每个特征在各个类别下出现的概率,然后根据贝叶斯定理,结合这些特征的概率以及类别的先验概率,计算出该样本属于每个类别的后验概率,最终将样本归为后验概率最大的类别。通过计算每个类别下特征的均值和方差,来估计。伯努利朴素贝叶斯主要用于处理二值特征的情况,即特征只有两种取值,比如在文本分类中,只考虑单词是否在文档中出现,而不考虑出现的次数。通过对大量正常邮件和垃圾邮件的学习,算法能够根据邮件的内容特征(如关键词、发件人等)准确判断一封邮件是否为垃圾邮件,大大提高了邮箱的使用效率和安全性。
2025-04-22 00:16:32
371
原创 K 近邻算法(KNN)从入门到实战
KNN 是机器学习的 “Hello World” 算法,其核心在于 **“近邻即相似”** 的哲学思想。数据标准化:避免尺度影响。K 值调参:通过交叉验证选择最优值。距离度量:根据数据类型选择合适的距离公式。性能优化:处理大规模数据时使用近似算法。
2025-03-24 19:00:10
911
原创 Anaconda 安装与编译环境配置全攻略
本文详细介绍如何在 Windows/macOS/Linux 系统中安装 Anaconda,并构建高效的 Python 编译环境。包含虚拟环境管理、依赖安装、C++ 编译支持等实战技巧。
2025-03-10 20:06:54
823
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅