- 博客(8)
- 收藏
- 关注
原创 PCA降维
PCA (Principal Component Analysis) 是一种常用的数据降维算法,用于对高维数据进行降维和特征提取。它的主要思想是通过对数据的协方差矩阵进行特征值分解,选择前 k 个特征值最大的特征向量作为新的主成分,将原始数据投影到主成分空间,从而实现数据降维。给定n个样本(每个样本维度为p维)定义为样本在第一主成分/主方向上的投影:其中,目标是找到a1,使z1的方差最大。
2024-06-17 21:51:09
1649
1
原创 支持向量机(SVM)
支持向量机(Support Vector Machine,SVM)是一种常用的机器学习算法,用于分类和回归分析。它的主要目的是寻找一个最优超平面,将不同属性的数据分成不同的类别。SVM是一种有效的分类器,因为它可以处理高维数据,并且可以使用核函数处理非线性可分的数据。2.支持向量离分隔超平面最近的那些点被称为支持向量SVM在处理高维数据和非线性数据时表现出色,并且对于噪声数据和小样本问题也有很好的效果。
2024-06-11 12:32:17
979
原创 机器学习之逻辑回归
逻辑回归是一个分类问题,逻辑回归通过计算输入特征的线性组合,使用Sigmoid函数将输出值范围压在0到1之间,表示某个类别发生的概率,并通过设定阈值(如0.5)将概率转换为类别输出(如[0,0.5)为一类,[0.5,1)为一类),因此特别用于二分类问题。def loadDataSet():#打开文本并且逐行读取dataMat=[]fr=open(r'C:\Users\HH\Desktop\Python\machinelearninginaction\Ch05\testSet.txt')#打开txt文本。
2024-05-27 19:34:45
351
1
原创 机器学习—贝叶斯分类
贝叶斯分类算法是基于贝叶斯方法的一列分类算法,包括朴素贝叶斯、半朴素贝叶斯、贝叶斯网络、EM算法等,朴素贝叶斯分类器是贝叶斯分类器中最简单,也是最常见的一种分类方法。先验概率:是指根据以往经验和分析得到的概率。后验概率:事情已经发生,要求这件事情发生的原因是由某个因素引起的可能性的大小。后验概率类似于条件概率联合概率与之前实验对比:数据集手动输入,没有调库,测试集和训练集的设置也更加方便。朴素贝叶斯运用到的概率公式有接触过,对于计算也更容易理解。
2024-05-12 20:22:00
731
原创 机器学习之决策树
ID3算法中,选择的是信息增益来进行特征选择,信息增益大的特征优先选择。基尼指数的意义是从数据集D中随机抽取两个样本类别标识不一致的概率。基尼指数越小,数据集的纯度越高。相比于信息增益,信息增益比等作为特征选择方法,基尼指数省略了对数计算,运算量比较小,也比较容易理解,所以CART树选择使用基尼系数用来做特征选择。在这个模型中用ID3算出的准确率比基尼指数的高一些。
2024-04-30 16:17:37
433
1
原创 机器学习之模型评估
模型评估是对训练好的模型性能进行评估,模型评估是模型开发过程不可或缺的一部分,有助于我们了解模型的性能和泛化能力。机器学习的任务有回归,分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。虽然在鸢尾花实验中k值对准确率和ROC曲线并无显著影响,但我们需要知道,在不特定问题中,较小的k值意味着模型会更加复杂,因为它更多地依赖于训练数据中的局部结构。这可能导致模型对训练数据过拟合,从而在测试数据上的表现不佳。
2024-04-16 15:42:46
2569
原创 K-近邻算法
k近邻算法采用测量不同特征值之间的距离方法进行分类。优点是精度高、对异常值不敏感、无数据输入假定;缺点是计算复杂度高、空间复杂度高。适用数据范围:数值型和标称型。k近邻算法的工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据(最近邻)的分类标签。
2024-04-02 17:00:58
1853
1
原创 安装anaconda及环境配置
安装完Anaconda后检查是否安装成功,在命令行输入conda --version显示未找到文件。a.登录Anaconda官网,进去直接点击"Download"就可以了(7.点击Finish就安装完成了(无需安装完打开查看可把两个勾选项取消)每添加一个路径重新新建一个,直至将(如图黄色框中文件路径)添加完为止。原因:未配置环境变量,完成此步骤后再次操作就成功出现了。点击链接进入清华镜像站,选择要下载的版本。2.新建>>找到下载Anaconda时的文件路径复制下来。下载很慢,推荐使用下面的方法。
2024-03-10 16:09:07
560
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人