
python 机器学习
一个小白的日常
记录日常学习
展开
-
提升算法-GBDT/XGboost/Adaboost
提升提升是一个机器学习技术,可以用于回归和分类问题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中,如果每一步的弱预测模型生成都是依据损失函数的梯度方向,则称之为梯度提升。梯度提升算法首先给定一个目标损失函数,它的定义域是所有可信的弱函数集合(基函数);提升算法通过迭代的选择一个负梯度方向上的基函数来逐渐逼近局部最小值。提升算法给定输入向量x和输出变量y组成若干训练样本(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_原创 2020-07-24 16:28:56 · 288 阅读 · 0 评论 -
鸢尾花数据集分类-AdaBoost\XGBoost
文章目录集成学习集成学习分类AdaboostXGBoostBoosting和Bagging代码对比实验分析集成学习构建多个分类器(弱分类器)对数据集进行预测,然后用某种策略将多个分类器预测的结果集成起来,作为最终预测结果。算法要求每个弱分类器具备一定的“准确性”,分类器之间具备“差异性”。XGBoost属于Boosting 集成算法。集成学习分类根据各个弱分类器之间是否存在有依赖关系,分为Boosting和Bagging两类。Boosting:各分类器之间有依赖关系,必须串行,比如Adaboos原创 2020-07-23 15:59:45 · 3113 阅读 · 1 评论 -
鸢尾花数据集分类-随机森林(遍历特征+过拟合分析)
鸢尾花数据集分类-随机森林这个比较简单理解,是比较基础点的。现在直接对数据集的特征进行遍历,并分析过拟合情况。https://blog.youkuaiyun.com/weixin_42567027/article/details/107488666数据集代码// An highlighted blockimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib as mplfrom skl原创 2020-07-23 01:27:26 · 3871 阅读 · 0 评论 -
鸢尾花数据集分类-随机森林
文章目录随机森林Bagging数据集代码实验分析随机森林鸢尾花数据集分类-决策树https://blog.youkuaiyun.com/weixin_42567027/article/details/107487428Bagging + 决策树 = 随机森林BaggingBagging(套袋法):从原始样本集中使用Bootstraping方法随机抽取n个训练样本,共进行k轮抽取,得到k个训练集。(k个训练集之间相互独立,元素可以有重复)针对k个训练集,训练k个模型分类问题:由投票表决产生分类结果;回原创 2020-07-21 15:12:46 · 5247 阅读 · 1 评论 -
鸢尾花数据集分类-决策树
决策树决策树(Decision Tree)是一种基本的分类与回归方法,当决策树用于分类时称为分类树,用于回归时称为回归树。主要介绍分类树。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点,其中内部结点表示一个特征或属性,叶结点表示一个类。决策树学算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得对各个子数据集有一个最好的分类的过程。根据信息增益准则的特征选择方法:对于训练数据集(或子集),计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。数据集代码原创 2020-07-21 14:41:24 · 8526 阅读 · 1 评论 -
线性回归预测销量-lasso/ridge模型
ElasticNet:L1正则化与L2正则化的组合。https://blog.youkuaiyun.com/weixin_42567027/article/details/107450610模型介绍lasso 为L1正则化,惩罚系数的绝对值,惩罚后每个系数都收缩,有变量选择功能。ridge 为L2正则化 ,惩罚系数的平方,惩罚后,部分系数直接变成0, 其他系数收缩。数据集代码// An highlighted blockimport numpy as npimport matplotlib as m原创 2020-07-21 01:04:41 · 1486 阅读 · 0 评论 -
波士顿房价预测-ElasticNet模型
文章目录介绍数据集代码图形介绍ElasticNet又叫弹性网络回归,也就是L1-norm与L2-norm的组合。数据集代码// An highlighted blockimport numpy as npimport matplotlib as mplimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.lin原创 2020-07-19 20:31:12 · 1757 阅读 · 0 评论 -
机器分类---LR分类+模型评估
文章目录数据集模型评估ROCAUC数据集数据集有三个类别,每个类别有50个样本。模型评估ROCROC曲线是二值分类问题的一个评价指标。它是一个概率曲线,在不同的阈值下绘制TPR与FPR的关系图,从本质上把“信号”与“噪声”分开。计算方式:以FPR为横坐标,TPR为纵坐标,那么ROC曲线就是改变各种阈值后得到的所有坐标点 (FPR,TPR) 的连线。TPR:表示所有正例中,预测为正例的比例;FPR:表示所有负例中,预测为正例的比例。AUC曲线下面积(AUC)是分类器区分类的能力的度量,用作原创 2020-07-18 09:15:01 · 1311 阅读 · 0 评论 -
PCA降维(python+matlab)
原理https://baike.baidu.com/item/pca%E6%8A%80%E6%9C%AF/10408698?fr=aladdin在pca降维后,由于前两组数据占整体数据信息的比重很大,因此算法使用的是降维后的前两组数据。注意:python的数据是.csv格式,matlab的数据是.mat格式。目前把数据加载到csdn上,我不会弄。如果需要数据,不行的话就私聊。python代码// An highlighted blockimport pandas as pdfrom skle原创 2020-07-17 22:18:20 · 2039 阅读 · 0 评论 -
鸢尾花数据集分析-logistic分类
文章目录数据集代码实现PCA降维logistic回归分析模型泛化能力分析数据集鸢尾花三个类别,每个类别有50个样本。其中一个类别与另外两个线性可分,另外两个不能线性可分。代码实现PCA降维最好先了解PCA原理,这样PCA后的数据就好理解了。// An highlighted blockimport pandas as pdimport numpy as npfrom sklearn.decomposition import PCAfrom sklearn.linear_model imp原创 2020-07-17 19:39:44 · 3917 阅读 · 1 评论 -
赔率——计算范围内素数的概率(五种算法)
基础理论质数(prime number)又称素数,有无限个。一个大于1的自然数,如果除了1和它自身外,不能被其他自然数整除(除0以外)的数称之为素数(质数);否则称为合数。可以通过将待检测的数x除以【2-sqrt(x)】范围内的数,余数不为0,则是素数。代码实现// An highlighted blockfrom time import timeimport mathdef is_prime(x): return 0 not in [x % i for i in range(2,原创 2020-07-17 13:17:06 · 2839 阅读 · 0 评论 -
环形公路堵车概率模型(含详细解析)
文章目录基础理论代码实现图形分析基础理论路面上有n辆车,以不同的速度向前行驶, 模拟堵车问题。有以下假设:假设某辆车的当前速度是v。若前方可见范围内没车,则它在下一秒的车速提高到v+1,直到达到规定的最高限速。若前方有车,前车的距离为d,且d < v,则它下 一秒的车速降低到d-1 。每辆车会以概率p随机减速v-1。、代码实现// An highlighted blockimport numpy as npimport matplotlib as mplimport mat原创 2020-07-17 01:23:13 · 1967 阅读 · 0 评论