自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 PCA 降维:原理、推导、实现与应用

在高维空间中,PCA 会找到多个相互正交的主成分方向,按照数据在这些方向上的方差大小进行排序,选取方差较大的几个主成分方向,将数据投影到这些方向上,实现降维。在机器学习模型训练前,使用 PCA 对数据进行降维,可以减少特征数量,降低计算复杂度,同时去除一些冗余特征,提高模型的训练速度和泛化能力,防止过拟合。需要注意的是,在使用 PCA 时,要合理选择降维后的维度​。这些特征向量构成了新的低维空间的基向量,特征值的大小反映了数据在对应特征向量方向上的方差大小,即数据在该方向上的信息含量。

2025-06-03 20:19:06 380

原创 基于 SVM 的垃圾邮件过滤器实战指南

采用词袋模型(Bag-of-Words),构建 1899 维的二值特征向量:若单词在词汇表中存在,则对应位置设为 1,否则为 0。email = re.sub(r'http://|https://', 'httpaddr', email) # 统一网址表示​。email = re.sub(r'<[^>]+>', ' ', email) # 去除HTML标签​。email = re.sub(r'[^\w\s]', ' ', email) # 去除非单词字符​。本次实验使用的数据集包含四个文件:​。

2025-05-20 19:18:30 1451

原创 机器学习中的朴素贝叶斯算法:原理、应用与实现

朴素贝叶斯算法会分别计算每个特征在各个类别下出现的概率,然后根据贝叶斯定理,结合这些特征的概率以及类别的先验概率,计算出该样本属于每个类别的后验概率,最终将样本归为后验概率最大的类别。通过计算每个类别下特征的均值和方差,来估计​。伯努利朴素贝叶斯主要用于处理二值特征的情况,即特征只有两种取值,比如在文本分类中,只考虑单词是否在文档中出现,而不考虑出现的次数。通过对大量正常邮件和垃圾邮件的学习,算法能够根据邮件的内容特征(如关键词、发件人等)准确判断一封邮件是否为垃圾邮件,大大提高了邮箱的使用效率和安全性。

2025-04-22 00:16:32 371

原创 K 近邻算法(KNN)从入门到实战

KNN 是机器学习的 “Hello World” 算法,其核心在于 **“近邻即相似”** 的哲学思想。数据标准化:避免尺度影响。K 值调参:通过交叉验证选择最优值。距离度量:根据数据类型选择合适的距离公式。性能优化:处理大规模数据时使用近似算法。

2025-03-24 19:00:10 911

原创 Anaconda 安装与编译环境配置全攻略

本文详细介绍如何在 Windows/macOS/Linux 系统中安装 Anaconda,并构建高效的 Python 编译环境。包含虚拟环境管理、依赖安装、C++ 编译支持等实战技巧。

2025-03-10 20:06:54 823

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除