
Machine Learning
文章平均质量分 93
记录学习的过程,介绍一些机器学习中常用的算法
长路漫漫2021
I confess that I have been blind as a mole, but it is better to learn wisdom late than never to learn it at all.
展开
-
sklearn基础篇(十)-- 非负矩阵分解与t-SNE
本篇主要介绍降维里经常使用的非负矩阵分解与t-SNE,本篇主要讲解两种算法的原理和sklearn实现。原创 2022-12-16 22:30:00 · 1347 阅读 · 1 评论 -
sklearn基础篇(九)-- 主成分分析(PCA)
PCA(Principal Component Analysis) 是一种常见的数据分析方式,常用于高维数据的降维,可用于提取数据的主要特征分量。PCA 的数学推导可以从最大可分型和最近重构性两方面进行,前者的优化条件为划分后方差最大,后者的优化条件为点到划分平面距离最小,这里我原理出发,介绍算法流程和sklearn实现。原创 2022-12-15 22:30:00 · 3524 阅读 · 0 评论 -
sklearn基础篇(八)-- 网格搜索与随机搜索
网格搜索适用于三四个(或者更少)的超参数(当超参数的数量增长时,网格搜索的计算复杂度会呈现指数增长,这时候则使用随机搜索),用户列出一个较小的超参数值域,这些超参数至于的笛卡尔积(排列组合)为一组组超参数。网格搜索算法使用每组超参数训练模型并挑选验证集误差最小的超参数组合。原创 2022-12-14 21:30:00 · 4222 阅读 · 0 评论 -
sklearn基础篇(七)-- 随机森林(Random forest)
随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。原创 2022-11-16 22:21:09 · 12181 阅读 · 0 评论 -
sklearn基础篇(六)-- 决策树(decision tree)
决策树是广泛用于分类和回归任务的模型。本质上,它从一层层的if/else问题中进行学习,并得出结论。决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5和CART。原创 2022-11-15 22:30:00 · 4143 阅读 · 0 评论 -
sklearn基础篇(五)-- 线性模型
本篇主要学习用于回归和分类的线性模型,包括普通最小二乘法、岭回归、Lasso正则化、Logistic回归、线性支持向量机,通过调节参数对比模型的学习能力。原创 2022-11-10 22:38:33 · 2415 阅读 · 0 评论 -
sklearn基础篇(四)-- k近邻算法
K近邻算法既能够用来解决分类问题,也能够用来解决回归问题。本篇主要学习k近邻算法原理,模型、KD树、ball树的实现,最后总结算法的优缺点。原创 2022-11-08 14:29:06 · 2132 阅读 · 0 评论 -
sklearn基础篇(三)-- 鸢尾花(iris)数据集分析和分类
本文是基于《Python机器学习基础教程》第一章学习的总结,主要是基于iris数据集进行探索数据分析和不同分类模型的对比,从而熟悉使用sklearn的模型进行机器学习。原创 2022-10-28 08:00:00 · 114407 阅读 · 13 评论 -
sklearn基础篇(二)-- 交叉验证评估模型性能
本节主要介绍使用留出法、K折交叉验证、留一法进行模型性能评估,以及在sklearn里如何快如使用交叉验证。原创 2022-10-20 21:45:33 · 5986 阅读 · 0 评论 -
sklearn基础篇(一)-- datasets数据集
本篇主要结合学习的内容,整理了sklearn中的datasets数据集,包括加载数据集、数据集分割、查看数据集分布,并介绍了通用数据集、真世界中的数据集、并介绍如何生成数据和导入本地数据。原创 2022-10-19 18:41:19 · 13462 阅读 · 1 评论 -
数据预处理之标准化方法
在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了统一比较的标准,保证结果的可靠性,我们在分析数据之前,需要对原始变量进行一定的处理,即本篇将向大家介绍的数据的标准化处理,将原始数据转化为无量纲、无数量级差异的标准化数值,消除不同指标之间因属性不同而带来的影响,从而使结果更具有可比性。原创 2022-04-27 21:49:25 · 6727 阅读 · 0 评论 -
因子分解机 FM
因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。目前,被广泛的应用于广告预估模型中,相比LR而言,效果优化很多。因子分解机是一种有效使用二阶特征交互的流行解决方案,本文主要介绍 FM算法原理,模型构建、以及用SGD、ALS求解。原创 2022-04-11 22:02:56 · 967 阅读 · 0 评论 -
对Lasso可以做特征选择,而Ridge却不行的详细解释
为了限制模型参数的数值大小,就在模型原来的目标函数上加上一个惩罚项,这个过程叫做正则化(Regularization)。如果惩罚项是参数的l_2范数,就是岭回归(Ridge Regression);如果惩罚项是参数的l_1范数,就是套索回归(Lasso Regrission)。本篇从几何和代数两个角度解释为什么Lasso更倾向于稀疏解,Ridge更倾向于稠密解,原创 2022-03-14 22:38:49 · 3548 阅读 · 0 评论 -
特征提取与特征选择
在数据预处理环节里,数据清洗后,往往需要特征提取和特征选择,从而在低维度数据里进行分类。这里主要介绍特征工程里特征提取常用的方法和特征选择常用的方法。原创 2022-01-16 15:19:23 · 11301 阅读 · 0 评论 -
Logistic 回归的决策边界
在使用数据集训练机器学习模型之后,我们通常需要可视化特征空间中数据点的类。散点图上的决策边界就是出于这个目的。而散点图更是包含着属于不同类别的数据点(用颜色或形状表示),决策边界可以通过多种不同的策略绘制:单线决策边界和基于轮廓的决策边界,这一节主要以逻辑回归为例分析如何绘制线性和非线性决策边界。原创 2022-01-08 23:16:02 · 8767 阅读 · 4 评论 -
Softmax 回归原理与实现
Softmax 回归(Softmax Regression),也称为多项(Multinomial)或多类(Multi-Class)的 Logistic 回归,是 Logistic 回归在多分类问题上的推广。本节主要从原理出发,推导如何求解参数,以及如何解决过拟合,最后用代码进行案例分析。原创 2022-01-06 21:01:32 · 1497 阅读 · 0 评论 -
多分类任务和 Softmax 回归
在我们解决多类线性可分问题的时候,常会遇到单标签二分类问题、单标签多分类问题、多标签算法问题。而前面讲的线性分类模型,原则上只能解决二分类问题,但通过一些技巧就可以解决多分类问题。这里主要分析通过“一对其余”方式(OvR)、“一对一”方式(OvO)、纠错码机制(MvM)等来解决单标签多分类问题,最后用案例对比三种方式的优缺点,同时分析了多个二分类器策略和softmax回归的区别。原创 2022-01-06 21:50:03 · 2859 阅读 · 0 评论 -
Sigmoid型函数、ReLU函数
激活函数是全连接神经网络中的一个重要部分,缺少了激活函数,全连接神经网络将退化为线性分类器。本篇主要介绍最常用的Sigmod型函数和Relu函数,了解这些函数的特性,也更有利于对相应的模型选择合适的激活函数。原创 2022-01-01 23:43:09 · 5514 阅读 · 0 评论 -
机器学习中的代价函数、损失函数、风险函数、目标函数
本篇主要介绍机器学习经常遇到的代价函数、损失函数、风险函数、目标函数。损失函数主要介绍0-1损失函数、 平方损失函数、绝对值损失函数、对数损失函数、Hinge损失函数;风险函数包括期望风险、经验风险、结构风险;代价函数包括均方误差、均方根误差、平均绝对误差、交叉嫡代价函数、Huber损失函数、Log-Cosh、Loss分位数损失函数;最后分析各种算法里用到损失函数,主要包括逻辑回归模型、决策树、朴素贝叶斯、KNN、SVM、提升方法。原创 2021-12-11 22:17:39 · 7120 阅读 · 3 评论 -
典型相关分析 CCA
典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。CCA 用于联合处理两组特征集,其背后的目标是寻找一对投影,每组各一个,使得在投影后得到的新特征最大程度地相关。把研究两组特征之间的问题化为研究两个所谓典型特征之间的相关问题。这里的典型特征不是从原特征组里挑出来的某个特征,而是原有特征的线性组合,因此需要求解的是这个线性组合的系数。原创 2021-12-06 15:25:45 · 8429 阅读 · 1 评论 -
线性分类(五)-- 朴素贝叶斯法
朴素贝叶斯法仍然是流行的十大挖掘算法之一,该算法是有监督的学习算法,解决的是分类问题。该算法的优点在于简单易懂、学习效率高、在某些领域的分类问题中能够与决策树、神经网络相媲美。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,是经典的机器学习算法之一。本篇主要介绍贝叶斯分类器,后验概率最大化,参数估计包括多项式朴素贝叶斯、伯努利朴素贝叶斯、高斯朴素贝叶斯,以及朴素贝叶斯的算法流程,同时引入半朴素贝叶斯包括SPODE、TAN、AODE,最后用朴素贝叶斯分类法实现辨别男女声音结束。原创 2021-12-13 17:00:22 · 1485 阅读 · 0 评论 -
线性分类(四)-- 高斯判别分析 GDA
本篇介绍了高斯判别分析,首先介绍生成模型,狭义的给出了生成模型与判别模型的一般区别;然后介绍高斯判别分析模型的三个基本假设:1)先验概率服从伯努利分布,2)条件概率服从高斯分布,3)特征的条件概率相互独立(同线性模型中的特征不相关)通过最大似然估计导出模型的参数;最后对比了判别模型中的逻辑回归,一般而言,高斯判别模型的假设条件强于逻辑回归,在模型选择时需考虑数据的分布和模型的适用场景。.原创 2021-12-10 18:53:26 · 3159 阅读 · 0 评论 -
线性分类(三)-- 逻辑回归 LR
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。为了实现逻辑回归分类器,我们可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和带入sigmoid函数中,进而得到一个范围在0-1之间的数值,最后设定一个阈值,在大于阈值时判定为1,否则判定为0。原创 2021-12-09 15:03:20 · 2068 阅读 · 0 评论 -
线性分类(二)-- 线性判别分析 LDA
线性判别分析(Linear Discriminant Analysis,简称LDA)是一种经典的监督学习的数据降维方法。LDA的主要思想是将一个高维空间中的数据投影到一个较低维的空间中,且投影后要保证各个类别的类内方差小而类间均值差别大,本文主要以推导数学公式为主,从算法的物理意义出发,然后一步一步推导得到结果。原创 2021-12-07 11:10:19 · 11541 阅读 · 0 评论 -
线性分类(一)-- 感知机算法 PLA
感知机预测是用学习得到的感知机模型对新的输入实例进行分类,是神经网络与支持向量机的基础。感知机(Perceptron)是二分类的线性分类模型,这里主要介绍感知机模型、学习策略、学习算法的原始形式和对偶形式,以及Python的实现。原创 2021-12-07 10:56:35 · 5906 阅读 · 8 评论