机器学习
文章平均质量分 95
机器学习基础概念、算法,Python实现
一只干巴巴的海绵
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
聚类性能评价指标
本文将介绍几种常见的聚类评价指标:Purity,NMI,RI,Precision,Recall,F,ARI,Accuracy。原创 2021-03-17 21:45:08 · 3285 阅读 · 0 评论 -
LightGBM算法
- LightGBM是对GBDT算法的优化。- 使用LightGBM进行排序。原创 2020-12-05 21:52:52 · 6042 阅读 · 0 评论 -
隐马尔可夫模型HMM
隐马尔可夫模型的基本概念 隐马尔可夫模型(hidden Markov model, HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。隐马尔可夫模型的定义图结构文字描述 隐马尔可夫模型是关于时序的概率模型,描述了:由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列;再由各个状态生成一个观测而产生观测随机序列 的过程。数学定义I=(i1,i2,...,iT)I=(i_1,i_2,...,i_T)I=(i1,i2,...,iT原创 2020-05-09 23:13:17 · 453 阅读 · 1 评论 -
【ML】机器学习基本任务:回归与分类(生成模型朴素贝叶斯与判别模型逻辑回归)
回归1. 模型建立模型:这里为线性模型;衡量模型好坏:损失函数;训练模型目标:最小化损失函数,优化方法求解优化问题;2. 模型评价训练集、测试集上的平均误差:主要关注测试集上的平均误差;3. 模型优化3.1 增大模型复杂度随着模型复杂度的增加,训练集上的平均误差逐渐减小,测试集上的平均误差先减小后增大,过于复杂的模型会出现过拟合现象;3.2 考虑隐变量不...原创 2020-04-24 21:09:12 · 905 阅读 · 0 评论 -
机器学习概述
课程网页机器学习就是让计算机自动找函数找什么样的函数——机器学习任务回归(Regresion)二分类(Binary Classification)多分类(Muli-class Classification)生成(Generation):产生有结构的复杂东西,例如文字、图片怎样找函数监督学习(Supervised Learning)对数据做标注,带标签的数据(xi,yi)...原创 2020-04-19 22:52:47 · 235 阅读 · 0 评论 -
【ML】维数灾难,主成分分析降维:最大投影方差
维数灾难(curse of dimensionality) 分类器的性能随着特征个数的变化不断增加,但过了某一个值后,性能开始下降,这种现象称为“维数灾难”。维数灾难的影响——过拟合随着特征数量的增加,特征空间内的样本密度会更加稀疏,也就更容易找到一个超平面将训练样本分开;但是训练样本越稀疏,分类器的参数估计就会越不准确,更加容易出现过拟合问题。 事实上,增加特征数量使得高维空...原创 2020-04-18 13:48:30 · 1355 阅读 · 3 评论 -
偏差与方差,经验误差与泛化误差、过拟合与欠拟合
偏差(Bias)与方差(Variance) 记协变量为XXX,预测变量为yyy,设XXX和yyy之间的关系可通过模型y=f(X)+ϵy=f(X)+\epsilony=f(X)+ϵ,其中误差项、ϵ、\epsilon、ϵ服从均值为0的正态分布,即ϵ∼N(0,σϵ)\epsilon\sim\mathcal{N}(0,\sigma_\epsilon)ϵ∼N(0,σϵ)。 设通过某个统计模型得到f...原创 2020-03-03 19:53:03 · 2594 阅读 · 1 评论 -
正则化思想
摘自:Slide原创 2020-03-25 15:17:41 · 390 阅读 · 0 评论 -
分类模型性能评价指标:混淆矩阵、F Score、ROC曲线与AUC面积、PR曲线
以二分类模型为例:二分类模型最终需要判断样本的结果是1还是0,或者说是positive还是negative。混淆矩阵(Confusion Matrix) 评价分类模型性能的场景:采集一个称之为测试集的数据集: 测试集的每一个样本由特征数据及其相应的分类结果组成(注:该数据集在建立分类模型时未使用,也就是说,测试集对建立的分类模型来说是未知的);将测试集中的特征数据输入到建立的分类模型中...原创 2020-03-06 20:01:59 · 3077 阅读 · 0 评论 -
感知机与BP神经网络详细推导
文章目录神经元常见的激活函数输出层激活函数感知机感知机学习损失函数感知机学习算法感知机拓扑结构多层前馈神经网络神经网络的学习:误差逆传播算法(BP算法)标准BP算法累积BP算法BP网络的过拟合BP网络的全局极小神经元 M-P神经元模型中,神经元接收到来自nnn个其他蛇精原传递过来的输入信号x1,...,xnx_1,...,x_nx1,...,xn,这些输入信号通过带权重的连接w⋅xw\...原创 2020-04-05 15:47:59 · 497 阅读 · 0 评论 -
【ML】高斯混合模型GMM(生成模型)
高斯混合模型GMM(生成模型) 高斯混合模型(Gaussian Mixture Model)是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模型,并使用了EM算法进行训练。高斯分布 高斯分布是一种常用的连续变量分布的模型。若单个随机变量xxx服从均值为μ\muμ,方差为σ2\sigma^2σ2的高斯分布,记为x N(μ,σ2)x~\mathcal{N}(\mu,\s...原创 2020-03-31 14:09:53 · 3125 阅读 · 1 评论 -
【ML】极限梯度提升算法XGBoost(Extrme Gradient Boosting)
极端梯度提升XGBoost XGBoost属于boosting集成学习方法,其基学习器的学习是串行的。CART回归树的加法模型:y^=ϕ(x)=∑i=1Kfk(x),fk∈F\hat{y}=\phi(x)=\sum_{i=1}^K f_k(x),\quad f_k\in \mathcal{F}y^=ϕ(x)=i=1∑Kfk(x),fk∈F其中,F={f(x)=wq(x)}(q:Rm...原创 2020-03-25 21:37:04 · 4903 阅读 · 0 评论 -
【ML】提升树、梯度提升决策树GBDT
梯度提升GB梯度提升树GBDTXGBoost原创 2020-03-25 09:00:47 · 362 阅读 · 0 评论 -
【ML】AdaBoost(Boosting集成)
AdaBoost是一种Boosting集成算法,对分类正确的样本降低了权重,对分类错误的样本升高或保持权重不变,在最后进行融合模型的过程中,也根据错误率对模型进行加权融合。原创 2020-03-23 14:51:16 · 317 阅读 · 0 评论 -
【ML】降维:LDA线性判别分析
PCA主成分分析无监督降维。目标是降维后的数据方差尽可能的大。作用:聚类:把复杂的多维数据点,简化成少量数据点,易于分簇。降维:降低高维数据维度,简化计算,达到数据降维、压缩、降噪的目的。PCA的原理将原有的ppp维数据集,转换为kkk维数据,k<pk<pk<p。寻找当前所在的ppp线性空间的一个kkk维线性子空间,在这个kkk维空间表示这些数据(将数据...原创 2020-03-22 22:03:18 · 451 阅读 · 0 评论 -
【ML】EM(期望最大)算法
EM算法(Expectation Maximization Algorithm,期望极大算法)是一种解决优化问题的迭代算法,用于求解含有隐变量的概率模型参数的极大似然估计(MLE)或极大后验概率估计(MAP)。EM算法是一种比较通用的参数估计算法,被广泛用于支持向量机(SMO算法)、朴素贝叶斯、GMM(高斯混合模型)、K-means(K均值聚类)和HMM(隐马尔科夫模型)的参数估计。理解EM...原创 2020-03-21 19:14:15 · 2778 阅读 · 0 评论 -
【ML】聚类:Kmeans算法与DBSCAN算法
聚类是无监督学习问题,没有标签,难点在于模型评估及调参。Kmeans聚类算法 假设我们想要将数据聚类成KKK个组,K-means方法的工作流程为:首先选择KKK个随机的点,称为聚类中心(cluster centroids)或质心;对于数据集中的每一个数据,按照距离KKK个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类;计算每一个组的平均值,将该组质...原创 2020-03-21 22:52:33 · 854 阅读 · 0 评论 -
【ML】支持向量机SVM:线性可分与非线性可分、硬间隔与软间隔
支持向量机(support vector machine, SVM)是一种二分类模型。线性可分支持向量机与硬间隔最大化线性支持向量机与软间隔最大化非线性支持向量机与核函数 给定训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}T={(x1,y1),(x2,y2),...,(xn...原创 2020-03-20 17:40:59 · 1766 阅读 · 0 评论 -
核函数概念及简要性质理解
核函数定义 《统计学习方法》中给出的核函数的定义为: 设X\mathcal{X}X是输入空间(欧式空间Rn\mathbb {R}^nRn的子集或离散集合),H\mathcal{H}H为特征空间(希尔伯特空间),如果存在一个从X\mathcal{X}X到H\mathcal{H}H的映射ϕ(x):X→H\phi(x): \mathcal{X}\rightarrow\mathcal{H}ϕ(x...原创 2020-03-19 12:31:44 · 5188 阅读 · 0 评论 -
【ML】朴素贝叶斯模型及文本分类
朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯模型的参数 设输入空间X⊆Rn\mathcal{X}\subseteq\mathcal{R}^nX⊆Rn为nnn维向量的集合,输出空间为类标记集合Y={c1,c2,...,cK}\mathcal{Y}=\{c_1,c_2,...,c_K\}Y={c1,c2,...,cK}。XXX是定义在输入...原创 2020-03-15 15:02:42 · 564 阅读 · 0 评论 -
【ML】随机森林(Bagging集成)
随机森林算法要点概述:随机森林的构建,如何体现随机,为什么要进行随机采样,为什么要有放回抽样,随机森林的优点与缺点原创 2020-03-14 18:47:14 · 786 阅读 · 0 评论 -
【ML】集成学习Bagging、Stacking、Boosting
Boosting与Stacking的区别Stacking模型融合Python实现原创 2020-03-14 16:55:34 · 883 阅读 · 0 评论 -
【ML】k近邻法
k近邻法(k-nearest neighbor,KNN)是一种基本分类与回归方法。kNN分类kNN算法 kkk近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其kkk个最近邻的训练实例的类别,通过多数表决方式进行预测。因此,kkk近邻法不具有显示的学习过程。kkk近邻法输入:训练数据集T={(x1,y1),(x2,y2),...,(xn,yn)}T=\{(x...原创 2020-04-02 13:07:54 · 259 阅读 · 0 评论 -
【ML】决策树:ID3与C4.5、CART回归树,决策树剪枝
- 决策树(decision tree)是一种基本的分类与回归方法。- ID3、C4.5、CART- 决策树的剪枝原创 2020-03-11 21:10:53 · 664 阅读 · 0 评论 -
【ML】逻辑回归模型及其Python实现
逻辑回归是一种经典的二分类算法。广义线性模型{yi∼indep.fYi(yi)fYi(yi)=exp{[yi−γi−b(γi)]/τ2−c(yi,τ)}E[yi]=μig(μi)=xiTβ\begin{cases}y_i\sim indep.f_{Y_i}(y_i)\\f_{Y_i}(y_i)=exp\{[y_i-\gamma_i-b(\gamma_i)]/\tau^2-c(y_i,\t...原创 2020-03-04 23:03:45 · 562 阅读 · 0 评论 -
【ML】线性回归及梯度下降法
线性回归模型:参数估计推导,梯度下降求解原创 2020-03-04 18:35:47 · 337 阅读 · 0 评论
分享