
机器学习
文章平均质量分 91
勤奋的可乐
面包会有的
展开
-
机器学习:Python中如何使用最小二乘法
定义:最小二乘法(又称最小平方法)是一种数学优化技术,它通过最小化误差的平方和寻找数据的最佳函数匹配。作用:利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。原则:以”残差平方和最小”确定直线位置(在数理统计中,残差是指实际观察值与估计值之间的差)数学公式:基本思路:对于一元线性回归模型, 假设从总体中获取了n组观察值(X1,Y1),(X2,Y2), …,(Xn,Yn),对于平面中的这n个点,可以使用无数条曲线来拟合。原创 2023-09-01 15:50:02 · 2033 阅读 · 0 评论 -
机器学习:python中如何使用朴素贝叶斯算法
这里再重复一下标题为什么是"使用"而不是"实现":首先,专业人士提供的算法比我们自己写的算法无论是效率还是正确率上都要高。其次,对于数学不好的人来说,为了实现算法而去研究一堆公式是很痛苦的事情。再次,除非他人提供的算法满足不了自己的需求,否则没必要"重复造轮子"。原创 2023-09-01 15:37:41 · 285 阅读 · 0 评论 -
机器学习:Python中如何使用支持向量机(SVM)算法
(简单介绍一下支持向量机,详细介绍尤其是算法过程可以查阅其他资)在机器学习领域,支持向量机SVM(Support Vector Machine)是一个有监督的学习模型,通常用来进行模式识别、分类(异常值检测)以及回归分析。其具有以下特征:(1)SVM可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。(2) SVM通过最大化决策边界的边缘来实现控制模型的能力。原创 2023-09-01 15:28:49 · 3810 阅读 · 1 评论 -
机器学习:以二元决策树为基学习器实现随机森林算法的回归分析
随机森林也是集成方法的一种,是对Bagging算法的改进。随机森林主要有两步组成:1)有放回的随机抽取样本数据,形成新的样本集。这部分和Bagging算法一样,但是有两点需要注意:a)新的样本集的大小和原始样本集的大小是一样的。假如原始样本有1000个数据,那么新样本集也要包括1000个数据,只是新样本集里面会含有部分重复的数据,这样可以避免过度拟合的问题。b)每生成一个决策树,都需要重新对原始数据进行取样。假如进行k次训练(即生成k课树),那么就需要重复k次这个动作2)无放回的随机抽取属性列。原创 2023-08-30 15:07:13 · 215 阅读 · 0 评论 -
机器学习:Python实现聚类算法(三)之总结
Mean-shift(即:均值迁移)的基本思想:在数据集中选定一个点,然后以这个点为圆心,r为半径,画一个圆(二维下是圆),求出这个点到所有点的向量的平均值,而圆心与向量均值的和为新的圆心,然后迭代此过程,直到满足一点的条件结束。(Fukunage在1975年提出)后来Yizong Cheng 在此基础上加入了 核函数 和 权重系数 ,使得Mean-shift 算法开始流行起来。目前它在聚类、图像平滑、分割、跟踪等方面有着广泛的应用。原创 2023-08-30 14:57:01 · 755 阅读 · 0 评论 -
机器学习:Python实现聚类算法(二)之AP算法
AP(Affinity Propagation)通常被翻译为近邻传播算法或者亲和力传播算法,是在2007年的Science杂志上提出的一种新的聚类算法。AP算法的基本思想是将全部数据点都当作潜在的聚类中心(称之为exemplar),然后数据点两两之间连线构成一个网络(相似度矩阵),再通过网络中各条边的消息(responsibility和availability)传递计算出各样本的聚类中心。原创 2023-08-29 22:33:17 · 1184 阅读 · 0 评论 -
机器学习:Python实现聚类算法(一)之K-Means
K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。原创 2023-08-29 22:21:38 · 915 阅读 · 0 评论 -
机器学习:python使用BP神经网络示例
(只是简单介绍下理论内容帮助理解下面的代码,如果自己写代码实现此理论不够)1) BP神经网络是一种多层网络算法,其核心是反向传播误差,即: 使用梯度下降法(或其他算法),通过反向传播来不断调整网络的权值和阈值,使网络的误差平方和最小。BP神经网络模型拓扑结构包括输入层(input)、隐藏层(hidden layer)和输出层(output layer),每层包含多个神经元。2)BP神经网络示例图上图就是一个简单的三层BP神经网络。原创 2023-08-29 21:40:39 · 1961 阅读 · 0 评论 -
机器学习:线性判别式分析(LDA)
线性判别式分析(Linear Discriminant Analysis),简称为LDA。也称为Fisher线性判别(Fisher Linear Discriminant,FLD),是模式识别的经典算法,在1996年由Belhumeur引入模式识别和人工智能领域。基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。LDA与PCA都是常用的降维技术。原创 2023-08-29 21:24:11 · 970 阅读 · 0 评论