
机器学习算法进阶之路
努力努力再努力F_
这个作者很懒,什么都没留下…
展开
-
机器学习的模型评估(使用sklearn工具)
使用ROC曲线评估分类模型是非常通用的手段,但是,使用它的时候要注意两点:1、分类的类型。必须为数值型。2、只针对二分类问题。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。传统的诊断试验评价方法有一个共同的特点,必须将试验结果分为两类,再进行统计分析。3.若预测多分类,解决方法是,把scorer=make...原创 2019-01-11 16:01:03 · 4372 阅读 · 0 评论 -
L1和L2正则整理
L1和L2正则化的目标是以不同的方式使参数减小,越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象,提高模型泛化能力。一、L1和L2正则分别是什么L1正则即将权重参数的绝对值之和加入到损失函数中,以二元线性回归为例,损失函数变为:L2正则即将权重参数的平方之和加入到损失函数中,以二元线性回归为例,损失函数变为:二、L1和L2的区别是什么1、L1正则化是指在损失函数中加入权...原创 2019-06-22 08:43:49 · 682 阅读 · 0 评论 -
利用现有的深度学习模型构建自己的模型(以VGG16为例)
概括本文主要是对已经预训练好的ImageNet图像识别模型进行微调( Fine-tune )。 从四个方面讲解:数据准备、训练模型、在测试集上验证准确率、 导出模型并对单张图片分类一、微调原理若为分类模型,需要用符合数据集类别数的全连接层去改变原先模型最后的全连接层初始化权重参数使用训练好的参数,节省训练时间,有助于分类器性能的提高指定训练层数的范围,有三种方式只训练最后的改变全连接...原创 2019-03-29 22:15:56 · 1591 阅读 · 0 评论 -
机器学习算法之--提升方法(boosting)总结
一、提升方法基本思路提升方法是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。提升方法需要回答两个问题一是在每一轮如何改变训练数据的权值或概率分布二是如何将弱分类器组合成一个强分类器。关于第一个问题,AdaBoost的做法是,提高那些被前几轮弱分类器线性组成的分类器错误分类的的样本的权值。这样一...原创 2019-03-05 21:28:13 · 689 阅读 · 0 评论 -
机器学习算法之--最大熵模型总结
一、最大熵原理最大熵模型可由最大熵原理推出,最大熵原理是概率模型学习的一个准则。最大熵原理认为在满足已有事实的所有可能的概率模型中,熵最大的模型是最好的模型。|X|是X的取值个数,上式表明当且仅当X的分布是均匀分布时右边的等号成立,当X服从均匀分布时,熵最大。二、最大熵模型定义两个步骤找出满足已有约束条件的概率模型从中寻找熵最大的模型给定数据集,考虑模型满足的条件,可以确定联合...原创 2019-02-20 10:22:54 · 2728 阅读 · 0 评论 -
机器学习算法之--逻辑斯谛回归总结
一、数学原理逻辑斯谛回归模型(Logistic regression)是对数线性模型,经典的分类方法。算法思路: 给定输入实例x,分别利用二项逻辑斯谛回归模型计算P(Y=1|x)与P(Y=0|x),比较两个概率值的大小,将x分到概率较大的那一类。**算法特点:**通过逻辑斯谛回归模型的定义式 P(Y=1|x) 可以将线性函数ω\omegaω*x转换为概率值,线性函数值ω\omegaω*x越接...原创 2019-02-01 10:10:22 · 1646 阅读 · 0 评论 -
机器学习之数据处理
数据预处理首先查看数据基本信息,必须为ataFrame格式数据才能采用以下格式查看print (test_data_org.info())print (train_data_org.info())print (test_data_org.describe())print (train_data_org.describe())print (train_data_org.columns)...原创 2019-01-21 14:48:45 · 1082 阅读 · 0 评论 -
sklearn集成学习
特征工程,集成学习,特征选择原创 2019-01-21 21:35:32 · 2917 阅读 · 0 评论 -
机器学习算法之--感知机总结
一、感知机数学原理感知机基于随机梯度下降法的最优化算法,是二分类线性模型,输入为实例的特征向量,输出为分类结果,属于判别模型。感知机旨在求出可以将数据进行线性划分的超平面(注意,只能划分线性可分的数据集,此时误分类次数k是有上界的,即感知机算法收敛,若数据集不可分,则算法不收敛)。感知机算法基本步骤输入:训练数据集(xix_ixi,yiy_iyi),xix_ixi为特征向量,yiy_i...原创 2019-01-15 16:56:33 · 895 阅读 · 0 评论 -
机器学习算法之--KNN总结
三个基本要素K值分类决策规则距离度量方式选择学习主线统计学习方法(数学原理)–机器学习实战(python源代码)–sklearn(调用API)–keras/tensorflow(调用深度学习方法)估计误差与近似误差1.估计误差估计误差我们应该在初中或者高中物理的时候就已经学过了,也许只是忘记了而已。估计误差主要包含四个部分:系统误差、随机误差、过失误差、精密度和精确度。就我们...原创 2019-01-09 21:09:19 · 732 阅读 · 0 评论 -
机器学习算法之--决策树总结
一、决策树算法数学原理决策树是一种基本的分类回归方法,由结点和有向边组成,结点有两种类型,内部结点和叶节点,内部结点表示属性或特征,叶节点表示类别,呈树形结构决策树可以看成是定义在特征空间和类空间上的条件概率分布,也可以看成if-then规则集合,每一个实例都被一条路和一个规则所覆盖,而且只被一条。(1)算法思路:三个步骤:特征选择–决策树的生成–决策树的剪枝(2)两个阶段学习:利用训练...原创 2019-01-20 17:00:01 · 586 阅读 · 0 评论 -
机器学习算法之--朴素贝叶斯总结
一、朴素贝叶斯算法数学原理朴素贝叶斯算法属于监督学习的生成学习模型,实现简单,没有迭代,并有坚实的数学理论(即贝叶斯定理)作为支撑。(1)算法思路: 通过从训练数据学习先验概率分布和条件概率分布来学习联合概率分布,然后基于特征条件独立和贝叶斯定理求得后验概率,将输入x分到后验概率最大的类别中,采用基于0,1损失函数下的期望风险最小化原则学习模型。(2)两个特点朴素:假设各特征之间相互独立;...原创 2019-01-18 17:23:13 · 903 阅读 · 0 评论 -
机器学习算法之--支持向量机总结
一、支持向量机(SVM)简介支持向量机(Support Vector Machines)是一种二分类模型,基本定义是在特征空间上的间隔最大的线性分类器,间隔最大有利于区别于感知机。它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解,等价于正则化的合页损失函数最小化问题。包括以下三个模型:当训练样本线性可分时,通过硬间隔最大化,学习一个线性可...原创 2019-02-23 21:05:48 · 1550 阅读 · 0 评论