
ML_algorithm
文章平均质量分 89
迷叶沙
这个作者很懒,什么都没留下…
展开
-
特征选择与降维
特征选择与降维可以说其本质目的是相同的,首要的一个目的就是为了应对维度灾难。随着以后所需处理的数据越来越大,可以直观的感受到样本的特征数呈现直线性的增长。特征选择与降维就是通过一定的算法来选择更为合适的、更具有代表性的的特征来替代原有的高维特征。总的来说,有这样的两个好处1:极大避免维度灾难问题2:往往能够去除一些不相关特征,针对我们的任务可以选择更为合适的特征。(特征选择)特征选择特征选择主流处理方法有三类,其中最为常用的是前两类处理方式1:过滤式2:嵌入式3:包裹式过滤式过滤式首先是针原创 2021-09-06 20:57:17 · 2546 阅读 · 0 评论 -
聚类算法与衡量标准
聚类聚类算法聚类性能度量聚类在前面我们所使用的KNN、SVM、DT等算法中,我们就是根据给定数据集的数据和标签来不断的学习模型参数,最终形成一个合适的模型,然后可以通过该模型去对其他的数据进行预测。但现在如果我们的数据中缺失了标签怎么办?从一个带有标签的监督学习转变为一个无标签的无监督学习。那么我们上述的算法就没法发挥作用了,聚类算法变应运而生,专门来应对此类没有标签的无监督学习任务,通过对无标签数据的学习来揭示数据的内在性质与规律。聚类算法一般主要有量大用途:1:作为一些监督学习任务的预处理,原创 2021-08-26 20:44:51 · 853 阅读 · 0 评论 -
贝叶斯分类器
贝叶斯理论连续、离散特征处理朴素贝叶斯分类器半朴素贝叶斯分类器贝叶斯理论在我们学习概率论课程中,基本上处处暗含着贝叶斯理论的身影。贝叶斯理论简单说可以是一种概率转化的方法,将一种较难求得的相关概率转化为几个较容易求得的概率乘积。现在我们考虑一种分类的任务,现有N种类别,我们将类别为cjc_jcj的样本误分为cic_ici的损失定为λijλ_{ij}λij,后验概率P(ci∣x)P(c_i|x)P(ci∣x)表示将样本x划分为cic_ici的概率。则通过上式我们可以计..原创 2021-08-24 13:50:51 · 246 阅读 · 0 评论 -
集成学习与Stacking
在前面介绍两种集成学习算法后,下面将引入一种新的集成思想。当数据很多时,Stacking学习法变应运而生。将单个的学习器称之为初级学习器,用以结合的学习器称之为元学习器。BaggingStackingStacking总体思想: 前面的Bagging算法中我们通过训练多个弱学习器,最终通过软/硬投票等方式作出最终的预测结果。那么我们是否可以使用同一份大的数据集,划分为多份,训练处多个弱学习器。然后最终我们采用一个模型(元学习器)来代替最后的预测环节(相当于用一个学习器代替软/硬投票这个过程)Stac原创 2021-08-19 14:29:15 · 566 阅读 · 0 评论 -
集成学习与Boosting
上文中我们讲述了并行的Bagging算法,以及其著名的变形随机森林算法。今天我们对集成学习三大方法的第二种算法进行学习。Boosting:提升算法。主要的算法有以下三类AdaBoostGBDTXgBoostAdaBoost从 前面的Bagging算法可知,Bagging算法采用的是多个基学习器并行学习,彼此之间互不关联,等权重投票。是一种并行的学习方式。而Boosting是一种串行的学习方式,就像我们电路中的串联方式,根据串行的特性,就决定了后续的弱学习器是基于前面学习器的输出进行原创 2021-08-19 14:28:20 · 439 阅读 · 0 评论 -
集成学习与Bagging
集成学习准确的说,集成学习并不能算是一个真正的机器学习算法,至少其本质上并未引入什么新的学习算法内容。集成学习的总体思想就是通过多个基(弱)学习器共同来完成最终的一个任务。就像以前是一个算法与问题之间的单挑,现在是多个算法(重复或者不重复)群殴一个问题。学术上称之为集成学习或者多分类器系统。集成学习大致可以分为三种学习方式BaggingBoostingStacking这里我们分为了三部分进行介绍,首先介绍Bagging算法思想及其实例,后面文章会分别对Boosting与Stack原创 2021-08-19 14:26:12 · 343 阅读 · 0 评论 -
SVM 2d/3d多分类案例与可视化
SVM2D可视化SVM多分类SVM3D可视化在前面的几篇小结中,我们对SVM的软硬间隔以及灵魂-核方法基本原理和数学证明进行了推导与解释说明。可以从下列链接中完整了解下SVM的工作机制。下面通过使用sklearn中的接口与现有数据进行SVM的使用以及可视化的展示SVM2D可视化# 分別引入点簇型,环型,月牙型,二分类型,高斯型数据from sklearn.datasets import make_blobs,make_circles,make_moons,make_classi..原创 2021-08-09 15:04:00 · 7762 阅读 · 2 评论 -
SVM之核技巧
核方法可以说是支持向量机的灵魂所在,是SVM中最为关键重要的内容。在面对一些非线性问题时,前面我们所讲的线程处理方式最终的效果差强人意。因此针对于非线性的核方法便应运而生。下面将会从核技巧、正定何证明、核技巧在SVM中的应用三个方面进行主要的介绍,最后会提供几种常用的核函数核技巧首先应明确核函数处理的问题:低维不可分核方法定义:K(x,z)=φ(x).φ(z)K(x,z)=φ(x).φ(z)K(x,z)=φ(x).φ(z)针对一个非线性问题一般不容易进行求解,通常情况下我们会对该问题进行变换,使之成原创 2021-08-04 16:09:28 · 1051 阅读 · 0 评论 -
SVM与硬/软间隔
SVM/支持向量机SVM Hard MarginSVM Soft MarginSVM支持向量机在神经网络尚未得到广泛的关注与应用之前,在分类与回归问题上,SVM当仁不让的王者。其核心思想就是分为了输入空间与特征空间两个不同的空间。输入空间一般为欧式空间或者离散集合,特征空间是欧式空间或者希尔伯特空间。支持向量机假设二者之间存在一个相互映射的关系,可以通过一种线性或者非线性的方式将输入空间数据映射到特征空间,成为相应的特征向量,因此支持向量机学习的是特征空间中的特征,在特征空间上进行学习的。支持.原创 2021-08-04 16:06:56 · 1697 阅读 · 0 评论 -
决策树算法
决策树决策树简介决策树分割原理ID3ID_3ID3算法C4.5C4.5C4.5算法CARTCARTCART决策树三种算法总结剪枝处理数据值缺失处理泰坦尼克生存预测实例决策树简介决策树:通俗的来讲就是一种树形结构,由根节点,中间节点,和leaf节点构成。其中根节点包含了整体样本,而中间节点就相当于多个if-else的组合。而leaf节点则相当于我们判定的类别。决策时就像一个不断递归的过程,直到无法再分为止,一种贪婪形式的算法。决策树分割原理ID3ID_3ID3算法ID3原创 2021-06-15 23:22:02 · 180 阅读 · 6 评论 -
K近邻算法(K-NN)
K近邻算法算法简介算法的三要素–K值的选择–距离度量–决策规则鸢尾花分类案例算法简介K近邻算法是一种分类回归算法,于1968年由Cover,Hart提出该算法简单直观,很容易理解,通俗点来讲就是有点随大流,“人以类聚物以群分”的味道,该数据周围是什么类,他也就是什么类。李航大大的统计学习方法中这样定义:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最相邻的K个实例,这K个实例中多数属于哪个类,则该新输入的实例也属于该类。算法的三要素由上述的定义可知:最相邻:原创 2021-05-30 18:54:41 · 3268 阅读 · 1 评论