
统计机器学习
频率派发展来的机器学习
整得咔咔响
再难,我也想和你一起学算法!!!
展开
-
统计机器学习(总结篇)
2020.08.01~2020.11.18,历经110天,我们把频率学派发展起来的统计机器学习章节全部介绍完毕。本文我们做一个总结。频率学派最基础、最核心的模型是线性回归,这也是为什么绝...原创 2020-11-18 22:00:00 · 954 阅读 · 0 评论 -
机器学习之模型评估
模型适用于新样本的能力,称为“泛化能力“数据集划分有留出法、交叉验证法和自助法用训练集建立模型,基于验证集上的性能来进行模型选择和调参用测试集上的判别效果来估计模型在实际使用时的泛化能力...原创 2020-08-04 07:30:00 · 1759 阅读 · 0 评论 -
机器学习之模型评估(损失函数)
损失函数最小化机器学习的“目标函数”,它是模型评估的重要指标损失函数一般分为回归问题和分类问题回归问题最常用的是均方误差(MSE)和平均绝对误差(MAE)MAE梯度自始至终是一样的,当损...原创 2020-08-04 07:30:00 · 3490 阅读 · 0 评论 -
sklearn实现数据集划分
1.留出法可用sklearn包ShuffleSplit和train_test_split实现2.ShuffleSplit可以实现多次随机划分,train_test_split只能实现一次...原创 2020-09-05 18:39:32 · 8515 阅读 · 1 评论 -
python模型调参三种方法
1.机器学习常用三种调参方法:网格搜索、随机搜索和贝叶斯调参2.网格搜索是遍历式搜索方法,效率较低,资源消耗多3.网格搜索和随机搜索都没有考虑前面搜索的先验知识4.贝叶斯调参的原理是贝叶...原创 2020-10-11 15:05:00 · 7113 阅读 · 0 评论 -
凸优化问题
1.一个最优化问题的可行域是凸集,并且目标函数是凸函数,则该问题为凸优化问题2.如果一个优化问题是不带约束的优化,则其优化变量的可行域是一个凸集3.多个凸集的交集还是凸集,凸集的并集并不...转载 2020-10-22 12:20:00 · 2590 阅读 · 0 评论 -
梯度下降法
1.梯度下降法是求解最优化问题最常用的算法之一2.只要没有到达梯度为0的点,则函数值会沿着序列xk递减,最终会收敛到梯度为0的点,这就是梯度下降法3.初始值设定与学习率设置是影响梯度下降...原创 2020-10-21 20:30:00 · 1818 阅读 · 0 评论 -
最大似然估计
1.最大似然估计是使得似然函数最大的参数2.它是已知分布和事件的结果,求解使得事件结果以最大概率出现时的参数3.背后的逻辑是既定事实要同时发生的概率必须和真实发生的概率接近 极大似然估计...原创 2020-08-18 20:31:00 · 4321 阅读 · 3 评论 -
多重共线性
1.回归模型自变量彼此相关称为多重共线性,它给模型提供重复信息2.多重共线性会造成模型不稳定,可能会得到无法解释的现象3.检测共线性的方法通常有相关性分析,显著性检验和方差膨胀因子分析4...原创 2020-09-11 20:30:00 · 11584 阅读 · 0 评论 -
线性回归之原理介绍
线性回归是研究平均意义下变量与变量之间的定量关系表达式线性回归损失函数一般是均方误差(MSE)求解线性回归参数通常有最小二乘法和梯度下降法最小二乘法的几何意义是高维空间中的一个向量在低维...原创 2020-08-03 00:00:00 · 3616 阅读 · 0 评论 -
线性回归建模思路与模型诊断(附代码)
分享笔者做线性回归的整体思路:确定因变量是否服从高斯分布;利用显著性检验寻找影响因变量的自变量;对自变量做必要的数据处理;模型建立与迭代评估线性回归模型效果一般用可决系数R2回归模型需要...原创 2020-08-03 00:00:00 · 2654 阅读 · 1 评论 -
线性回归案例分析
本案例是kaggle共享单车的比赛案例,先对数据集介绍Instant 记录号Dteday:日期Season:季节 1=春天 2=夏天 3=秋天 4=冬天yr:年份,(0: 2011, 1...原创 2020-08-05 00:00:00 · 3305 阅读 · 1 评论 -
核函数
1.高维空间比低维空间更易线性可分2.核函数是关于两个向量参数的函数3.正定核函数等于两个向量参数映射到高维空间的内积4.正定核函数等价于gram matrix是半正定的5.常用的核函数...原创 2020-10-01 20:30:00 · 3916 阅读 · 1 评论 -
约束优化问题(SVM预备知识)
1.带约束条件的最优化问题称为原问题p2.通过拉格朗日乘子法可以将原问题变为无约束形式3.通常原问题难求解,需要构造其对偶问题d4.可以证明,原问题的解大于等于对偶问题的解,这个称为弱对...原创 2020-11-08 22:30:00 · 2431 阅读 · 1 评论 -
SVM(一)
1.SVM是解决分类问题的经典算法2.SVM核心三个关键词:间隔、对偶、核技巧3.SVM一共三种情形:硬间隔分类器、软间隔分类器、核映射分类器4.硬间隔分类器的目标是最大化边缘距离5.目...原创 2020-11-11 07:35:00 · 1115 阅读 · 0 评论 -
SVM(二)
1.软间隔分类器是在硬间隔基础上加上合页损失函数,该函数用松弛因子ξ表达2.样本点在决策平面与支持向量的分布情况可以利用KKT条件从λ、ξ取值关系得到3.利用核函数可以解决线性不可分的S...原创 2020-11-12 12:15:00 · 179 阅读 · 0 评论 -
SVM(三)
1.求解SVM参数λ使用SMO算法(序列最小化)2.SMO算法的思想是每次只优化两个变量,将其他的变量都视为常数3.初始置所有样本参数λ为0,超平面常数项b为04.每次迭代优先选择违反K...原创 2020-11-13 23:21:00 · 200 阅读 · 0 评论 -
感知机与线性判别分析
1.感知机的核心思想用四个字可定义:错误驱动2.线性判别分析是一种不怎么用的分类算法,等价于LDA降维方法,更多用于降维3.LDA的思想是最大化类间距离(类间散度矩阵),最小化类内方差(...原创 2020-11-14 11:00:00 · 441 阅读 · 0 评论 -
从【为什么要用sigmoid函数】到真的懂【逻辑回归】
1.逻辑回归是广义线性回归(GLM)的一种特殊形式2.GLM有三个要素构成:响应变量服从指数族分布,系统分量是预测变量x的线性模型,通过连接函数联系前两者2.逻辑回归建立在0-1分布上,...原创 2020-08-24 00:00:00 · 3498 阅读 · 1 评论 -
概率生成模型:GDA和Navie Bayes
1.线性分类软输出模型包含概率判别模型和概率生成模型2.概率判别模型对条件概率建模,概率生成模型对联合概率建模3.逻辑回归是经典的概率判别模型,GDA和朴素贝叶斯是生成模型4.GDA三个...原创 2020-11-15 00:00:00 · 473 阅读 · 0 评论 -
线性分类模型sklearn实现
这一节我们对线性分类模型的sklearn实现做一个介绍,首先总结一下线性分类模型的具体算法.我们介绍逻辑回归、朴素贝叶斯和支持向量机的sklearn实现逻辑回归from sklearn....原创 2020-11-16 00:00:00 · 621 阅读 · 0 评论 -
决策树之原理与调参
决策树一棵对数据属性进行判断,得到分类或回归结果的二叉树或多叉树分类决策树本质上是一个多维空间上的分段线性划分,回归决策树是分段常数函数决策树通过递归分裂过程找到决策边界决策树从不纯度角...原创 2020-08-02 00:00:00 · 2154 阅读 · 0 评论 -
决策树sklearn包细节讲解
本篇介绍一些决策树的sklearn包tree的知识点,关于决策树的原理可参考文章决策树之原理与调参。1.决策树的sklearn包介绍python可以实现分类树和回归树两种:from sk...原创 2020-09-17 21:30:00 · 4633 阅读 · 5 评论 -
K近邻算法
1.KNN是一种监督式算法,通俗理解就是物以类聚,既可以用于分类也可以用于回归2.主要思想是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例3.KNN算法最...原创 2020-08-22 00:00:00 · 489 阅读 · 0 评论 -
牛顿法
1.牛顿法是求解优化问题的一种方法,核心思想是在某点处用二次函数来近似目标函数2.牛顿法面临三个局限:局部极值或鞍点;迭代过程不能保证函数值下降;求解海森逆矩阵计算量大3.利用直线搜索或...原创 2020-10-23 07:45:00 · 3775 阅读 · 0 评论 -
集成学习(一)
1.同质集成中只包含同种类型的个体学习器,个体学习器称为基学习器2.异质集成包含不同类型的个体学习器,个体学习器称为组件学习器3.集成学习具体的方法通常有两种:bagging和boost...原创 2020-09-26 16:00:00 · 427 阅读 · 0 评论 -
集成学习(二)
1.bagging与决策树结合的模型叫随机森林(RF)2.随机森林的随机指的是样本boostrap采样,特征随机抽取3.每次迭代中,约36.8%的数据不参与建模,该数据称为包外数据(OO...原创 2020-10-14 23:00:00 · 546 阅读 · 0 评论 -
集成学习(三)
1.AdaBoost算法思想可以理解为先抓总体,再抓特例的分而治之策略2.AdaBoost算法核心在于理解样本权值更新方式与弱分类器权重更新方式3.误差率低的弱分类器在最终分类器中占的权...原创 2020-10-17 19:30:00 · 345 阅读 · 0 评论 -
集成学习(四)
1.GBDT也是Boosting思想的一个应用,分成梯度提升和决策树2.把梯度下降法的学习率从人工设定变成由算法决定,这称最速下降法,也称直线搜索3.把加法模型和最速下降法结合,就产生了...原创 2020-10-25 11:30:00 · 174 阅读 · 0 评论 -
集成学习(五)
1.XGBoost的是对梯度提升树的改进,目标函数由梯度提升算法损失以及正则化项构成2.XGBoost拟合的目标值是(-g/h):一阶导除以二阶导的负数,这也是牛顿法求解结果3.XGBo...原创 2020-10-31 23:30:00 · 244 阅读 · 0 评论 -
集成学习(六)
1.无论是分类问题还是回归问题,GBDT建立的决策树都是回归树2.当损失函数是指数损失时,GBDT退化为AdaBoost分类算法3.GBDT拟合最优解利用了泰勒展开二阶信息的近似解4.G...原创 2020-11-07 14:30:00 · 332 阅读 · 0 评论