
机器学习
文章平均质量分 94
小白只对大佬的文章感兴趣
小白一个
展开
-
python数据分析—删除value=0的行
拿到一堆数据,首先我们是要对其进行数据的预处理,其中数据存在一些值为空或者是我们不想要的数据,对其进行删除或者是修改数据值。下面是对于该例子进行删除和修改:>>> dfout[]:0 10000 23 男1 15000 34 女2 23000 21 男3 0 20 女4 28500 0 男5 35000 37 男。原创 2022-09-15 11:52:37 · 19645 阅读 · 0 评论 -
数学建模之多项式回归
对于多项式回归方法来说,若你的数据点不适合线性回归(就是直线大部分不穿过数据点),那么使用该方法就比较合适。并且多项式回归像线性回归一样,都是用变量 x 和 y 之间的关系来找到绘制数据点线最好的方法。原创 2022-09-09 15:13:26 · 1702 阅读 · 0 评论 -
机器学习11—原型聚类之学习向量量化(LVQ)
周志华的《机器学习》介绍学习向量量化(LVQ)中可以知道,LVQ也是基于原型的聚类算法,与K-Means不同的是,LVQ使用样本真实类标记辅助聚类,首先LVQ根据样本的类标记,从各类中分别随机选出一个样本作为该类簇的原型,从而组成了一个原型特征向量组,接着从样本集中随机挑选一个样本,计算其与原型向量组中每个向量的距离,并选取距离最小的原型向量所在的类簇作为它的划分结果,再与真实类标比较。LVQ算法的流程如下所示:统计样本的类别,假设一共有q类,初始化为原型向量的标记为{t1,t2,……,tq}。原创 2022-08-20 18:02:29 · 4937 阅读 · 0 评论 -
机器学习10—多元线性回归模型
在市场的经济活动中,经常会遇到某一市场现象的发展和变化取决于几个影响因素的情况,也就是一个因变量和几个自变量有依存关系的情况。而且有时几个影响因素主次难以区分,或者有的因素虽属次要,但也不能略去其作用。例如,某一商品的销售量既与人口的增长变化有关,也与商品价格变化有关。这时采用一元回归分析预测法进行预测是难以奏效的,需要采用多元回归分析预测法。多元回归分析预测法,是指通过对两个或两个以上的自变量与一个因变量的相关分析,建立预测模型进行预测的方法。当自变量与因变量之间存在线性关系时,称为多元线性回归分析。原创 2022-08-19 22:43:11 · 25094 阅读 · 1 评论 -
机器学习之算法优化(二)
模拟退火算法的应用很广泛,可以高效地求解NP完全问题,如旅行商问题(Travelling Salesman Problem,简记为TSP)、最大截问题(Max Cut Problem)、0-1背包问题(Zero One Knapsack Problem)、图着色问题(Graph Colouring Problem)等等,但其参数难以控制,不能保证一次就收敛到最优值,一般需要多次尝试才能获得(大部分情况下还是会陷入局部最优值)。观察模拟退火算法的过程,具有以下主要优势迭代搜索效率高,并且可以并行化;...原创 2022-08-17 20:26:07 · 780 阅读 · 0 评论 -
机器学习之算法优化—Geatpy工具中案例分析
问题1:如何用多种群来进行单目标优化下面代码是通过加multi来构建SEGA进化算法来进行多种群进化优化:上述代码输出为:差分进化DE_rand_1_bin算法算法描述:差分进化DE_rand_1_bin算法构造函数:主要参数说明:代码为:输出为:2.2例2是展示了一个带约束的单目标旅行商问题的求解。问题2:代码如下:输出为:matplotlib绘制路线图为:问题3:代码为:输出为:问题4:模型:分析:该问题可以单纯用实整数编码’RI’来实现,但由于有一个”x3,原创 2022-08-16 18:40:27 · 3152 阅读 · 2 评论 -
机器学习之算法优化(一)
Geatpy是一个高性能实用型进化算法工具箱,可用于求解单目标优化、多目标优化、复杂约束优化、组合优化、混合编码进化优化等。内部封装了多种算法,包括遗传算法,差分进化算法,群粒子算法,模拟退火算法等。1.方法一def aimFunc(pop) : # 定义目标函数(含约束) Vars = pop . Phen。...原创 2022-08-15 21:37:33 · 2538 阅读 · 2 评论 -
机器学习9—关联分析之Apriori算法和FP-Growth算法
FpGrowth算法通过构造一个树结构来压缩数据记录,使得挖掘频繁项集只需要扫描两次数据记录,而且该算法不需要生成候选集合,所以效率会比较高。FP-Tree(频繁模式树):是一个树形结构,包括一个频繁项组成的头表,一个标记为null的根结点,它的子结点为一个项前缀子树的集合。频繁项:单个项目的支持度超过最小支持度则称其为频繁项(frequentitem)。频繁头表:频繁项头表的每个表项由两个域组成,一个是项目名称,一个是链表指针,指向下一个相同项目名称的结点。生成FP-Growth树。......原创 2022-08-10 19:29:17 · 6739 阅读 · 0 评论 -
机器学习8—聚类算法之DBSCAN和Birch算法
DBSCAN算法优缺点优点1)不需要划分个数。跟 K-means 比起来,DBSCAN 不需要人为地制定划分的类别个数,而可以通 过计算过程自动分出。2)可以处理噪声点。经过 DBSCAN 的计算,那些距离较远的数据不会被记入到任何一个簇中,从而成为噪声点,这个特色也可以用来寻找异常点。3)可以处理任意形状的空间聚类问题。从我们的例子就可以看出来,与 K-means不同,DBSCAN 可以处理各种奇怪的形状,只要这些数据够稠密就可以了。缺点1)需要指定最小样本量和半径两个参数。...原创 2022-08-09 16:50:15 · 2638 阅读 · 0 评论 -
机器学习7—聚类算法之K-means算法
聚类是将数据集中某些方面相似的数据划分在一起,给定简单的规则,对数据集进行分堆,是一种无监督学习。聚类集合中,处于相同聚类中的数据彼此是相似的,处于不同聚类中的元素彼此是不同的。由于在聚类中那些表示数据类别的分组信息或类标是没有的,即这些数据是没有标签的,所有聚类又被称为无监督学习(Unsupervised Learning)。K-means算法一种自下而上的聚类方法,是采用划分法来实现。K-means算法的优缺点:优点简洁明了,计算复杂度低。收敛速度较快。......原创 2022-08-08 14:44:14 · 2593 阅读 · 0 评论 -
机器学习六—深度学习算法之人工神经网络(ANN)
人工神经网络的灵感来自其生物学对应物。生物神经网络使大脑能够以复杂的方式处理大量信息。大脑的生物神经网络由大约1000亿个神经元组成,这是大脑的基本处理单元。神经元通过彼此之间巨大的连接(称为突触)来执行其功能。接收区(receptive zone):树突接收到输入信息。触发区(trigger zone):位于轴突和细胞体交接的地方,决定是否产生神经冲动。传导区(conducting zone):由轴突进行神经冲动的传递。输出区。...原创 2022-08-06 23:14:34 · 13312 阅读 · 0 评论 -
机器学习—分类算法的对比实验
对各种机器学习分类算法进行对比,以鸢尾花数据集为例,我们从绘制的分类边界效果以及实验评估指标(Precision、Recall、F1-socre)分别进行对比。# 第一步,数据准备 from sklearn import datasets # 引入iris数据 import numpy as np。...原创 2022-08-05 16:29:36 · 3209 阅读 · 0 评论 -
机器学习5—分类算法之随机森林(Random Forest)
随机森林(Random Forest)是Bagging(一种并行式的集成学习方法)的一个拓展体,它的基学习器固定为决策树,多棵树也就组成了森林,而“随机”则在于选择划分属性的随机,随机森林在训练基学习器时,也采用有放回采样的方式添加样本扰动,同时它还引入了一种属性扰动,即在基决策树的训练过程中,在选择划分属性时,Random Forest先从候选属性集中随机挑选出一个包含K个属性的子集,再从这个子集中选择最优划分属性,一般推荐K=log2(d)。...原创 2022-08-05 15:14:37 · 110266 阅读 · 25 评论 -
机器学习4—分类算法之朴素贝叶斯 (Naive Bayes)
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考算法的优缺点优点逻辑清晰简单、易于实现,适合大规模数据。根据算法的原理,只要我们把样本中所有属性相关的概率值都计算出来,然后分门别类地存储好,就获得了我们的朴素贝叶斯模型。运算开销小。根据上一条我们可以得知,所有预测需要用到的概率都已经准备好,当新数据来了之后,只需要获取对应的概率值,并进行简单的运算就能获得结果。...原创 2022-08-03 19:26:07 · 2513 阅读 · 0 评论 -
机器学习3—分类算法之支持向量机(Support Vector Machine,SVM)算法
SVM算法分析的六个步骤第一步,加载数据集。采用loadtxt()函数加 - 载酒类数据集,采用逗号(,)分割。第二步,划分数据集。将Wine数据集划分为训练集和预测集,仅提取酒类13个特种中的两列特征进行数据分析。第三步,SVM训练。导入Sklearn机器学习包中svm.SVC()函数分析,调用fit()函数训练模型,predict(test_data)函数预测分类结果。第四步,评价算法。...原创 2022-08-02 18:14:21 · 3551 阅读 · 2 评论 -
机器学习3—分类算法之K邻近算法(KNN)
加载数据集采用loadtxt()函数加载酒类数据集,采用逗号(,)来分割。划分数据集由于Wine数据集第一列为类标,后面13列为13个酒类特征,获取其中两列特征,并将其划分成特征数组和类标数组,调用concatenate()函数实现。KNN训练调用Sklearn机器学习包中KNeighborsClassifier()函数训练,设置K值为3类,并调用clf.fit(train_data,train_target)训练模型,clf.predict(test_data)预测分类结果。...原创 2022-08-01 17:11:50 · 2843 阅读 · 3 评论 -
机器学习2—分类算法之决策树(Decision Tree)
训练。给定一个数据集,每个样本包含一组特征和一个类别信息,然后调用分类算法训练分类模型。预测。利用生成的模型或函数对新的数据集(测试集)进行分类预测,并判断其分类后的结果,并进行可视化绘图显示。分类实例进行讲解。假设存在一个垃圾分类系统,将邮件划分为“垃圾邮件”和“非垃圾邮件”,现在有一个带有是否是垃圾邮件类标的训练集,然后训练一个分类模型,对测试集进行预测,步骤如下随机森林为了更好地解决泛化及树结构变动~等~问题,从决策树演进出来随机森林算法。httpshttpshttps。...原创 2022-07-31 21:06:34 · 3839 阅读 · 1 评论 -
机器学习1一回归模型(二)
在前面讲述的回归模型中,处理的因变量都是数值型区间变量,建立的模型描述是因变量的期望与自变量之间的线性关系或多项式曲线关系。比如常见的线性回归模型而在采用回归模型分析实际问题中,所研究的变量往往不全是区间变量而是顺序变量或属性变量,比如二项分布问题。通过分析年龄、性别、体质指数、平均血压、疾病指数等指标,判断一个人是否换糖尿病,Y=0表示未患病,Y=1表示患病,这里的响应变量是一个两点(0或1)分布变量,它就不能用h函数连续的值来预测因变量Y(Y只能取0或1)。绘制Sigmoid曲线。https。.....原创 2022-07-30 20:19:21 · 900 阅读 · 0 评论 -
机器学习1一回归模型(一)
上图是一个简单的回归模型,X坐标是质量,Y坐标是用户满意度,从图中可知,产品的质量越高其用户评价越好,这可以拟合一条直线y=ax+b来预测新产品的用户满意度。在回归模型中,我们需要预测的变量叫做因变量,比如产品质量;选取用来解释因变量变化的变量叫做自变量,比如用户满意度。回归的目的就是建立一个回归方程来预测目标值,整个回归的求解过程就是求这个回归方程的回归系数。回归定义,如果曲线是一条三次曲线,就被称为三次多项回归。线性结果和特征之间是一次函数关系,比如上述例子中直线y=ax+b。......原创 2022-07-29 22:23:24 · 2442 阅读 · 0 评论