自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 多分类Adaboost

多分类Adaboost方法1)拆分为多个二分类的组合OVA方案:使用JJJ(类别数)个分类器,判断是否属于某一类AVA方案:使用(J∗(J−1))(J*(J-1))(J∗(J−1))个分类器,在任意两类之间做区分,投票决定分类缺点:使用分类器多,计算量大需要保证基分类器准确率大于12\frac1221​,在多分类问题中条件苛刻2)将多分类器作为基分类器组合标签向量方法输出不再是单个数值,而是JJJ维向量,每一维度代表样本属于相应类别的可能程度在不同的方法中,区别主

2021-12-13 17:11:27 2415

原创 各版本Adaboost

各版本AdaboostAdaboost来源:Freund Y , Schapire R E . A desicion-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55:119-139.Adaboost最初版本针对二分类问题主要贡献是提出了每轮迭代自动调整样本分布的策略错误率ϵt\e

2021-12-13 15:40:51 377

原创 机器学习基础---神经网络---卷积神经网络CNN

卷积神经网络CNN相关概念卷积不同于学意义上的卷积,深度学习中的卷积是卷积核在原始图像上遍历,对应元素相乘再求和单核在单通道张量上卷积过程大致如下:卷积神经网络中,数据的格式主要是以张量(多维向量)形式存储,一般格式为行*列*通道数,卷积核格式为核数×行×列×通道数多通道卷积操作是每次取出卷积核中的一个(通道数与张量一致),对应通道的张量和卷积核进行二维卷积,得到各通道结果,再将各通道卷积结果相加得到输出张量的一个通道。每个卷积核处理张量生成一个输出通道,输出张量的通道数等

2021-11-15 14:53:01 2551

原创 机器学习基础---集成学习---GBDT梯度提升树

GBDT 梯度提升树(Gradient Boosting Decision Tree)方法概述提出背景Adaboost方法采用指数损失函数,其对噪声点较为敏感因此需要一个可以应用不同损失函数函数的提升方法核心思想仍然是基于决策树的加法模型与Adaboost不同,不考虑样本的分布,单纯考虑最小化损失函数采用前向分步方法,分步训练基学习器,每步训练的模型都是对先前累加模型的负梯度拟合模型表示模型fM(x)=∑m=1MT(x,θm)f_M(x)=\sum_{m=1}^MT(x,

2021-11-14 19:31:09 1169

原创 机器学习基础---集成学习---AdaBoost 方法

AdaBoost 方法方法概述核心思路利用弱分类器(决策树)加权线性组合来最小化指数损失函数基分类器权值与样本分布都会随先前预测结果改变,先前分错的样本会在后续训练中更加重要方法表示H(x)=∑m=1Mαmhm(x)H(x)=\sum_{m=1}^M\alpha_mh_m(x)H(x)=m=1∑M​αm​hm​(x)优化目标指数损失函数l(h∣D)=Ex∽D[e−f(x)h(x)]l(h|D)=E_{x\backsim{D}}[e^{-f(x)h(x)}]l(h∣D)=Ex

2021-11-14 16:29:39 356

原创 机器学习基础---集成学习---Bagging & Stacking方法

Bagging & Stacking方法Bagging方法(Bootstrap Aggregating 自助聚合)核心思想基于一个数据集训练多个学习器,预测新样本时综合所有模型的预测结果作为最终结果一般选择同质学习器,通过自助采样的方法基于样本数据集构建多个子数据集,每个学习器在不同子数据集上进行训练模型表示令hi(x)h_i(x)hi​(x)是基于自助采样DbsiD_{bsi}Dbsi​训练得到的同质学习器分类模型可以表示为:H(x)=argmaxy P(h(

2021-11-14 13:36:16 369 1

原创 机器学习基础(五)集成学习

集成学习方法方法概述集成学习(ensemble learning)方法通过构建并结合多个学习器并将之结合来解决一个问题。其一般框架如上图所示:一个集成由多个基学习器(base learner)构成,基学习器由及分类算法在训练数据集上训练获得。根据基学习器的种类,集成学习方法可以分为同质集成与异质集成,目前同质集成的应用更为广泛。对集成学习方法进行分析:参数角度,同质集成方法中同种基学习器本就是同过不同训练数据或不同超参数实现,因此就集成整体而言不需要超参数选择。效果角度,集成学习通常

2021-11-14 11:55:53 1009

原创 机器学习基础---回归方法---支持向量回归(SVR)

支持向量回归(SVR)方法描述核心思想:用线性模型(f(x)=wTx+bf(x)=w^Tx+bf(x)=wTx+b)对回归问题进行拟合确定的线性模型对应w,bw,bw,b唯一确定一个超平面wTx+b=0w^Tx+b=0wTx+b=0不同于一般线性模型,在超平面两侧定义间隔ϵ\epsilonϵ,在间隔带内则不计算损失,当且仅当f(x)与y之间的差距的绝对值大于ϵ\epsilonϵ才计算损失通过最大化间隔带的宽度与最小化总损失来优化模型相关概念硬间隔最大容忍偏差为

2021-11-14 11:53:55 6143

原创 机器学习基础---回归方法---最小二乘回归

最小二乘回归方法描述核心思想针对有监督回归问题,使用线性变换f(x)=wTxf(x)=w^Txf(x)=wTx,对从样本到标签得映射y:X−>Yy:X->Yy:X−>Y进行拟合以误差平方和作为损失函数,方法优化目标是最小化误差平方和方法推导损失函数:输入矩阵X=[x1,x2,...,xn]X=[x_1,x_2,...,x_n]X=[x1​,x2​,...,xn​], 标签矩阵Y=[y1,y2,...,yn]TY=[y_1,y_2,...,y_n]^TY=[y1​,y2

2021-11-13 22:39:11 827

原创 机器学习基础---神经网络---全连接网络及BP算法

BP神经网络方法描述方法思想:使用复合函数f(x)=fm(f(m−1)(...f1(x)))f(x)=f^m(f^{(m-1)}(...f^1(x)))f(x)=fm(f(m−1)(...f1(x)))拟合输入样本集XXX到标签集YYY之间的映射针对一个样本xix_ixi​进行计算的过程是正向的,从f1(x)f^1(x)f1(x)到fm(x)f^m(x)fm(x)一步步计算,称作正向传播优化复合函数,即调整每一层函数参数以使得预测结果偏差最小的过程中,需要从结果的误差出发,向前传递误差,进而修改

2021-11-13 21:23:36 1043

原创 机器学习基础---分类方法---逻辑回归(LR)

逻辑回归(Logistic Regression)方法描述核心思想:对二分类问题而言,假设数据集线性可分,即存在超平面(wx+b=0)(wx+b=0)(wx+b=0)能够将数据点划分开来在感知机或支持向量机中,是通过f(x)=sign(wx+b)f(x)=sign(wx+b)f(x)=sign(wx+b)的方法判断二分类种类(+1,−1)(+1,-1)(+1,−1)的但考虑到f(x)f(x)f(x)的数值大小还能表现出样本属于某种分类的程度因此设计逻辑回归方法,基于对数几率函数和样本到分类平面

2021-11-12 21:48:05 358

原创 机器学习基础---分类方法---支持向量机(SVM)

支持向量机SVM(分类器)方法描述核心思想:本篇中主要以二分类问题为例讨论SVM分类器对于d维样本集,每个样本视作d维空间中的一个点就二分类问题而言:若样本线性可分,则一定可以找到一个超平面(W,b)(W,b)(W,b)将d维样本空间分为两个部分,每类样本分别在超平面一边若样本线性不可分,通过核方法映射到可以线性分开样本的高维,再使用线性分类器对于线性可分数据来说,分割平面不唯一,为了得到唯一确定且最优的分割平面,引入间隔概念(衡量平面两端样本到平面的距离)间隔增大

2021-11-12 21:46:31 629

原创 机器学习基础(四)预测方法(分类&回归)概述

预测问题任务描述任务目标:总体来说,分类问题与回归问题的目的是一致的,都是为了预测根据预测目标不同,可以将预测问题分为以下三类分类:预测目标值无顺序意义且为有限个数离散量预测目标值只有单纯的类别区别,各类之间的差距一致(只有相同和不同的差别)回归:预测目标值为有顺序意义的连续变量取值范围为任意实数序回归:预测目标值为有顺序意义的有限个数离散变量例如:评价(非常满意、满意、一般、不满意、非常不满意),这五种目标取值是离散量,但其间又有顺序关系序回归问题

2021-11-12 21:41:21 5879

原创 机器学习基础---聚类方法---谱聚类

谱聚类算法描述核心思想:无监督聚类问题核心目标是找到样本集的最佳k划分,使得簇内间距最小,簇间间距最大使用图论方法对该问题进行分析,将样本视作节点,样本与样本之间相似程度视作边权,构建无向带权图聚类问题可以视作在图中进行切分,获取k个子图的过程(每个子图中的样本为一类)相关定义相似矩阵(权重矩阵)W:用于衡量任意两样本之间的相似程度基本思想:距离较远的两个点之间的边权重值较低,距离较近的两个点之间的边权重值较高构建相似度矩阵W主要有三种方法:ϵ−近邻\epsilon-近邻ϵ

2021-11-09 17:05:27 394

原创 机器学习基础---聚类方法---k-Means&模糊C均值聚类(fuzzy C-Means)

K-Means方法 & fuzzy C-Means方法算法描述核心思想:k-means方法无监督聚类算法,输入数据为样本矩阵D=[x1,x2,...xn]D=[x_1,x_2,...x_n]D=[x1​,x2​,...xn​],目标是获得簇划分C={C1,C2,...,Ck}C=\{C_1,C_2,...,C_k\}C={C1​,C2​,...,Ck​},每个簇对应簇心u={u1,u2,...,uk}u=\{u_1,u_2,...,u_k\}u={u1​,u2​,...,uk​}

2021-11-06 23:13:40 800

原创 机器学习基础(三)聚类方法概述

聚类方法任务描述方法目的:对无标签样本数据集X=[x1,x2,...,xn]X=[x_1,x_2,...,x_n]X=[x1​,x2​,...,xn​]将数据集中样本划分为若干个不相交子集(簇)C1,C2,...,CkC_1,C_2,...,C_kC1​,C2​,...,Ck​可以用于体现数据内部分布结构,也可以作为分类等其他问题的前驱形式描述:矩阵表示:F=f(X)F=f(X)F=f(X)其中F是指示矩阵,与LDA方法中介绍的一致(以行向量作为样本分类标识,第i行第j列

2021-11-06 18:15:16 735

原创 机器学习基础---降维方法---T分布随机近邻嵌入(TSNE)推导

T-SNE(T-Stochastic Neighbor Embedding)核心思想:对无监督聚类问题:PCA目的是在样本空间内找到子空间,以变换矩阵W对样本矩阵XXX实现原空间到子空间的映射,属于线性聚类方法;其方法核心在于最小化投影后方差LPP方法,本身结合了非线性流形学习方法LE(拉普拉斯特征映射)的思想,引入线性变换的假设,虽然从本质上说属于线性方法,但有效地保留原始高维数据内部的非线性结构,对非线性流形数据聚类也有较好的效果;其核心在于使投影前后距离近的点相似关系保持上述两种方法中

2021-11-03 20:57:41 2313

原创 机器学习基础---降维方法---局部保持投影(LPP)推导

LPP方法概述核心思想有映射Ym∗n=f(Xd∗n)\underset{m*n}{Y}=f(\underset {d*n}X)m∗nY​=f(d∗nX​),能够实现将d维的样本变换到m维空间之中假设:对于一个好的降维方法,在高维空间下距离近(相似度高)的两个点,在低维空间下依旧保持相近的关系考虑映射Y=WTXY=W^TXY=WTX,即原样本空间中有xix_ixi​与xjx_jxj​距离近,yiy_iyi​与yjy_jyj​ (yi=WTxiy_i=W^Tx_iyi​=WTxi​)仍保持相近关系

2021-11-01 22:11:51 2585 2

原创 机器学习基础---降维方法---线性判别分析(LDA)推导

线性判别分析(LDA)算法描述核心思想:LDA方法属于有监督降维,其需要由标签信息输入算法目标是将样本矩阵X经过线性映射W投影到子空间,使降维后样本类间距离尽可能远,类内方差足够小(最大化类间距离,最小化类内距离)相关定义:输入数据集X=[x1,x2,...,xN]X=[x_1,x_2,...,x_N]X=[x1​,x2​,...,xN​]定义指示矩阵F,矩阵大小为N*C(样本数*类别数);该矩阵每个行向量FiF_iFi​与样本xix_ixi​对应,当xix_ixi​为第c类样本,

2021-10-31 19:46:05 569

原创 机器学习基础---降维方法---主成分分析(PCA)推导

主成分分析 PCA算法概述相关数学概念:从矩阵空间角度分析PCA方法:对于原始样本来说,其基向量为d个形如(1,0,0,…,0),(0,1,0,…,0),(0,0,0,…,1)的单位正交向量,这些向量张成d维样本空间,样本点的坐标代表着d个基向量的线性组合:xi=(xi1,xi2,...,xi,d)T=xi1(1,0,0,...,0)T+...+xid(0,0,0,...,1)Tx_i=(x_{i1},x_{i2},...,x_{i,d})^T=x_{i1}(1,0,0,...,0)^T

2021-10-29 15:04:03 281

原创 机器学习基础(二)降维方法

降维方法任务描述目的:现实样本的属性维度通常很高,在高维样本空间中,通常会出现“维度灾难”问题,其表现有:数据样本密度低(稀疏):对训练集更容易拟合出精确的模型,但同时学习到了噪声,泛化能力降低(引起过拟合)以线性分类为例,高维稀疏空间下更容易找到完美的训练集分割超平面,但模型复杂程度增加,如果训练数据没有指数级的增加以保持保持同样的距离分布,反而会引起过拟合距离衡量失效:很多学习方法基于样本距离计算,在高维空间中,数据的稀疏性致使数据点在空间上分布不均匀,大部分样本点都远离高维

2021-10-28 13:41:56 459

原创 机器学习基础(一)机器学习概述

机器学习机器学习概述一、机器学习方法《统计学习方法》上给出的概括基于有限的训练数据集;假设数据是独立同分布产生;且要学习的模型属于某个称作假设空间(hypothesis space)函数集合;应用某个评价准则,从假设空间中选取最优模型,使其对已知/未知数据集在评价准则下有最优解;最优模型选取由特定算法实现统计方法三要素:模型(模型假设空间),策略(模型选取准则),算法(模型学习方法)个人理解有包含n个样本的数据集 D={x1, x2, … , xn},xi为第i个d维样本

2021-10-26 21:41:28 231

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除