自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 机器学习——主成分分析(PCA)

第一个主成分 \(w_1\) 是使得投影方差最大的方向: \(\max_{||w||=1} \frac{1}{n} \sum_{i=1}^n (x_i^T w)^2 = \max_{||w||=1} w^T S w\) 通过拉格朗日乘数法求解,得到: \(S w = \lambda w\) 即 w 是协方差矩阵 S 的特征向量,对应的特征值 \(\lambda\) 是投影方差。主成分分析(Principal Component Analysis, PCA)是机器学习和数据分析中最基础且应用广泛的降维技术。

2025-06-16 16:39:41 3767

原创 支持向量机svm——垃圾邮件过滤器

支持向量机是机器学习中理论严谨且应用广泛的算法,尤其擅长处理高维非线性数据。其核心在于间隔最大化和核技巧,通过优化支持向量的位置实现高效分类。尽管在大规模数据场景中存在效率挑战,但其在小样本、高维问题中的优势使其成为经典算法之一。实际应用中需结合数据特点选择核函数与参数,并注意数据预处理和模型调优。

2025-06-03 00:23:16 633

原创 机器学习Logistic 回归

Logistic 回归是机器学习中最基础的分类算法之一,其核心在于通过 Sigmoid 函数将线性回归转化为概率预测,并利用极大似然估计进行参数学习。尽管模型简单,但在实际应用中(尤其是结合特征工程和集成学习)仍表现出色,是理解复杂分类算法(如神经网络)的重要基础。

2025-05-20 00:07:14 835

原创 朴素贝叶斯算法——西瓜分类器

先验概率:依据数据集中好瓜与非好瓜的样本数量,得出 “好瓜 = 是” 和 “好瓜 = 否” 的先验概率。条件概率离散特征:对色泽、根蒂等离散特征,运用拉普拉斯平滑,通过统计各特征取值在不同类别样本中的数量,算出条件概率。连续特征:针对密度、含糖率等连续特征,假定其服从高斯分布,先求出均值和标准差,再依据高斯分布概率密度函数计算条件概率。后验概率:根据朴素贝叶斯公式,将先验概率与各特征条件概率相乘,得到 “好瓜 = 是 | 样本” 和 “好瓜 = 否 | 样本” 的后验概率。预测。

2025-05-05 21:32:15 906

原创 机器学习之决策树:原理、算法与应用

决策树作为一种直观且易于实现的机器学习算法,在分类和回归任务中都有着广泛的应用。通过细致的数据预处理、合理的特征选择、递归的分裂过程和有效的剪枝技术,决策树能够在保持模型简洁的同时,提供准确的预测结果。然而,决策树的性能受多种因素影响,包括特征选择方法、数据质量、树的深度以及剪枝策略等。在实际应用中,需要根据具体问题和数据特点,仔细调整和验证模型,以充分发挥决策树的优势,避免其缺点带来的影响。希望本文能够帮助读者对决策树有更深入的理解,并在实际的机器学习项目中灵活运用这一强大的工具。

2025-04-21 22:44:27 2158

原创 KNN算法求PR曲线和ROC曲线

随着召回率的增加,精确率会逐渐下降。例如,如果在某个应用场景中,对精确率要求较高,即希望预测为正类的样本中尽可能多的是真正的正类,那么可以选择一个较高的阈值,此时召回率可能会较低,但能保证较高的精确率;召回率表示实际为正类的样本中被正确预测为正类的比例,精确率表示预测为正类的样本中实际为正类的比例。KNN 算法是一种基本的分类与回归方法,其核心思想是:对于一个待分类的样本,在训练数据集中找到与其距离最近的 K 个样本,然后根据这 K 个样本的类别进行投票,得票最多的类别即为待分类样本的预测类别。

2025-04-07 21:39:21 804

原创 #基于K近邻算法的分类器的实现

K近邻分类器(KNN)(4-2)K近邻分类器(K-Nearest Neighbor,简称KNN)是一种基本的机器学习分类算法。它的工作原理是:在特征空间中,如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别。具体来说,KNN算法首先计算待分类样本与其他所有样本的距离,然后按照距离的递增关系进行排序,选取距离最小的K个样本,最后根据这K个样本的类别通过多数投票等方式进行预测。当K=1时,KNN算法又称为最近邻算法。KNN算法的优点包括:思想简单,易于理解和实现。

2025-03-24 22:42:35 1449

原创 如何安装anaconda

一.进入anaconda官网:Free Download | Anaconda。conda create -n 环境名 python=版本号。新建环境变量 填写刚刚安装位置中scripts的路径。激活虚拟环境 conda activate 环境名。最后退出虚拟环境:conda deactivate。在后面输入 conda --version。然后输入conda env list。填入电子邮件地址后即可进入下载界面。之后进入安装界面 按照如下步骤选择。打开设置 在设置中搜索。在高级中选择环境变量。

2025-03-10 21:59:04 181

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除