
机器学习
隔壁的NLP小哥
积跬步,至千里
展开
-
机器学习实践——支持向量机
机器学习实践——支持向量机1、支持向量机的优缺点1.1 优点在高维空间十分有效。即使数据的维度比样本数量还要大的情况下仍然有效。在支持向量中使用训练集的子集,对内存的利用比较高效。不同的核函数和特定的决策函数一一对应。1.2 缺点如果特征数量比样本的数量大得多的时候,在选择核函数的时候要避免过拟合,此时采用正则化是非常有必要的。支持向量机不能直接提供概率估计。2、skl...原创 2020-03-19 21:08:03 · 4264 阅读 · 0 评论 -
机器学习实践——线性回归算法
机器学习实践——线性回归算法1、基本准备1.1 、 sklearn.linear_model.LinearRegression类1.1.1 基本参数fit_intercept:bool类型,表示是否计算截距,也就是线性模型中的B是否为0,设置为True则使用截距,False不使用,默认为TRUE。normalize:布尔类型,表示是否对数据进行归一化,归一化的过程就是原值减去均值使得新...原创 2020-03-18 23:24:47 · 650 阅读 · 0 评论 -
机器学习实践——KNN算法
机器学习实践——KNN算法1、基本准备1.1 sklearn.neighbors.KNeighborsClassifier类1.1.1 基本参数说明n_neighbors: K近邻算法中的k值,默认值为5.weight:基于权重的KNN算法的权重计算方式,参数值包括1、‘uniform’,所有的节点的权重相同。2、‘distance’:按照距离来取权重值。3、[callable],用户...原创 2020-03-18 18:32:29 · 1921 阅读 · 0 评论 -
深度学习——CNN相关网络(二)
深度学习——CNN(Convolutional Neural Network)(二)在之前的文章中,我们主要介绍了关于CNN的基本思想和基本结构,下面我们要介绍的是关于CNN的一些常见的变形结构。1 空洞卷积(dilated convolution)1.1 基本思想空洞卷积的基本思想是在卷积操作之后生成的结果矩阵上增加“空洞”,依次来增加接收域(reception filed),相比于原理的卷积操作,空洞卷积主要是增加一个超参数,这个超参数称为“空洞率”,空洞率值的是卷积核内部参数的间隔。我们给出原创 2020-05-17 00:27:56 · 1287 阅读 · 0 评论 -
深度学习——CNN相关网络(一)
深度学习——CNN(Convolutional Neural Network)(一)1. CNN神经网络引入1.1 回顾BP网络首先,我们来看一下传统的BP网络的结构:上图所展示的是BP网络的前向传播和反向传播的过程图。跟根据上面的图示,我们可以给出上述BP网络的某一个输出单元k的计算公式:gk(x)=f2[∑j=1Hwkjf1[∑i=1dwjixi+wj0]+wk0]g_k(x)=f_2[∑_{j=1}^Hw_{kj}f_1[∑_{i=1}^dw_{ji}x_i+w_{j0}]+w_{k0}原创 2020-05-16 16:35:15 · 782 阅读 · 0 评论 -
机器学习——条件随机场(CRF)原理
机器学习——条件随机场(CRF)原理1. 条件随机场(CRF)基本原理1.1 马尔科夫随机场的引入在一个无向图中,任意两个具有边连接的节点x,y,如果从x节点走的y节点是具有一定概率数值的,则这种图被称为无向概率图。马尔科夫随机场也是一种无向的概率图。1.1.1 团与极大团在无向图中,任意两个节点之间具有边连接的各个节点集合构成了一个团。在各个团中,如果再加入一个节点,就不能再构成团的节...原创 2020-04-09 11:37:22 · 10015 阅读 · 0 评论 -
机器学习——验证方法
机器学习——验证方法1 、验证的引入1.1 机器学习中的数据集划分在机器学习中,我们的训练机器学习模型的目标是得到一个泛化误差小的模型,也就是说在没有参加训练的样本中获得最优的性能。通常情况下,我们会将数据集分成三个部分,包括训练集,验证集和测试集。我们在训练集上对机器学习的模型进行训练,在训练的过程中使用验证集进行测试,当在验证集上获取到最优的参数的时候,可以停止训练。将训练好的模型在测试...原创 2020-03-16 12:21:26 · 5730 阅读 · 0 评论 -
机器学习——聚类算法(二)谱聚类
机器学习——聚类算法(二)谱聚类在之前的文章中,我们介绍了K-means聚类算法和学习向量化LVQ算法(机器学习——聚类算法总结(一)),下面我们开始介绍另外一种聚类方案——谱聚类。1、谱聚类基本流程1.1 谱聚类的基本概念谱聚类是一种基于图轮的聚类方法,其主要的思想是将一个带有权重的无向图划分成多个最优的子图,使得子图的内部的节点尽量的相似,而不同子图之间的差异性比较大,也就是不同的子图...原创 2020-03-16 09:55:07 · 1211 阅读 · 0 评论 -
机器学习——集成学习综述
机器学习——集成学习综述1、集成学习概述1.1 基本概念集成学习是机器学习中一个非常重要的学习策略。顾名思义,集成学习本身不是一个单独的机器学习算法,而是通过集合多个学习器来组成一个机器学习系统来完成学习任务。集成学习的应用面很广,包括分类问题,回归问题,特征抽取问题等等。1.2 基本结构上面我们提到了,集成学习本身是综合了多个学习器的机器学习系统,我们通过训练数据集,分别训练多个学习器...原创 2020-03-13 20:17:57 · 937 阅读 · 0 评论 -
NLP——Seq2Seq基本原理以及Attention改进
Seq2Seq基本原理与聊天机器人实践原创 2020-03-12 12:55:32 · 1007 阅读 · 0 评论 -
深度学习——正则化(二)
深度学习——正则化(二)在之前的文章中深度学习——正则化(一)中,我们简单的介绍了几种常见的正则化的策略。下面我继续介绍正则化的相关策略。1、 参数绑定与参数共享在我们之前的叙述中,我们讨论了通过对损失函数添加惩罚项,从而对参数进行约束或者惩罚,但是我们可以发现这种方式是针对相对固定的区域或者点。比如L2正则化中是对参数偏离0的固定值进行了惩罚。然而,我们对于模型参数的值有的时候会基于一定的...原创 2020-03-12 11:17:53 · 313 阅读 · 0 评论 -
深度学习——正则化(一)
深度学习——正则化(一)1 正则化的引入1.1 正则化的基本概念机器的学习的目标在真实的情况中性能最好,一般情况下,我们使用训练集来训练学习算法,并采用损失函数来度量模型的性能。我们将模型在测试集(一般认为是真实情况)的误差称为泛化误差。在训练集上的误差称为训练误差。根据机器学习的最终目标,我们想要的是泛化误差最小。在机器学习中,有很多的策略被设计用来减少泛化误差,这种策略统一称之为正则化。...原创 2020-03-11 23:31:21 · 1091 阅读 · 0 评论 -
深度学习——模型优化
深度学习——模型优化1、优化过程引入1.1 学习过程和优化过程的区别实际目标不同,学习算法的目标是通过降低损失函数L,从而提高模型在真实情况下的性能P。而优化算法的目标是如何更好的降低损失函数的值。计算目标不同,一般情况下,通过学习算法,我们的计算的是整个模型函数的最小值点。也就是说学习算法通常不会停止在局部值点,而是直接寻找最值点。但是这样容易引起过拟合。但是通过优化算法,其寻找的不一...原创 2020-03-11 14:47:16 · 1478 阅读 · 0 评论 -
机器学习——梯度提升(GBDT)算法
机器学习——梯度提升(GBDT)算法1、集成学习中的两种方式1.1 Bagging和Boosting在之前的文章中,我们介绍了集成学习的两种方式,一种是弱分类器之间是并行的,彼此之间不存在关系,第二种是弱分类器是串行的,彼此之间存在着一定的联系。我们将第一种思想称为Bagging,第二种思想称为Boosting。1.2 Bagging简述所谓的Bagging,就是指通过对大小为N的原始数...原创 2020-03-05 22:58:11 · 3014 阅读 · 0 评论 -
机器学习——CRAT算法
机器学习——CRAT算法1、CART算法引入1.1 从ID3算法到CART算法在之前的文章机器学习——决策树(ID3)算法,我们主要介绍了使用信息增益来构建决策树的算法。在ID3算法中,我们使用信息增益来选择特征,信息增益大的优先选择,通过信息增益的计算公式我们不难看出,信息增益的计算会涉及到大量的对数计算,计算量大,并且在计算的过程中容易丢失信息,那么我们应该如何对此进行改进呢?这里我们介...原创 2020-03-05 20:58:39 · 1684 阅读 · 0 评论 -
机器学习——聚类算法总结(一)
机器学习——聚类算法原创 2020-02-29 12:31:44 · 1084 阅读 · 0 评论 -
机器学习——随机森林算法
机器学习——随机森林算法1、随机森林引入在之前的文章机器学习——AdaBoost算法中,我们引入了集成学习的概念,我们再来回忆一下集成学习的基本框架:上述的每一个学习器称为弱学习器,通过多个弱学习器,最终构建出集成学习器系统,集成学习系统主要可以分成两个类别,第一个是各个弱学习器之间是有关的,第二种是各个学习器之间是无关的,对于第一种,我们已经讲述了AdaBoost算法,我们接下来是讲述关...原创 2020-02-28 19:17:58 · 1162 阅读 · 0 评论 -
机器学习——概率分类(二)MLE算法与EM算法
机器学习——概率分类(三)EM算法EM算法的主要作用是参数估计,在一般的模型中,当不能通过直接求导得到最优解的时候,我们就需要通过迭代的方式来求得近似最优解。...原创 2020-02-28 13:03:54 · 1917 阅读 · 0 评论 -
机器学习——基于HMM的中文分词
机器学习——基于HMM的中文分词1、代码展示#encoding=utf-8'''B表示词汇的开始M表示词汇的中间E表示词汇的尾部S表示词汇单独成词'''class HMM(object): def __init__(self): self.states = ['B','M','E','S'] self.load_para = False ...原创 2020-02-22 17:28:10 · 835 阅读 · 0 评论 -
机器学习——隐马尔科夫(HHM)原理
机器学习——隐马尔科夫(HHM)原理原创 2020-02-22 17:15:48 · 2720 阅读 · 0 评论 -
机器学习——AdaBoost算法
机器学习——AdaBoost算法1 集成学习1.1 基本概念所谓的集成学习指的是通过构建多个学习器来完成学习的任务,有的时候也被称为多分类器系统。其基本框架如下图所示:我们从统一的训练样本,通过某种算法来产生多个学习器,再通过某一种策略来将各个学习器进行组合,从而形成一个学习器系统。我们将从训练样本中产生的每一个单个的学习器称为弱学习器。目前,集成学习主要包括两种实现方式,一种是两个学习...原创 2020-02-16 19:04:53 · 583 阅读 · 0 评论 -
机器学习——支持向量机(SVM)算法
机器学习——支持向量机(SVM)算法1、线性SVM算法1.1 算法引入首先,我们给定一张图:在上的图示中".“代表正例(+1),”。"代表反例(-1),根据两种样本的分布,我们可以设定一条直线wx+b=0作为不同类样本的分割线,在直线的上方表示的是正例,直线的下方表示的是反例。不难发现,我们只要稍微的对直线的斜率进行改变,就可以生成一条新的直线来分割样本点。如下图所示:根据图示,我们...原创 2020-02-14 13:25:55 · 2238 阅读 · 0 评论 -
机器学习——Python实现主成分分析算法
机器学习——Python实现主成分分析算法1、代码演示#首先是构造协方差矩阵的过程def getCovarianceMatrix(D): ''' D:原始的样本集合,其中每一个X是一个行向量。 ''' sh = D[0].shape #先求一下均值 X_mean = np.zeros(sh) for X in D: X_...原创 2020-02-11 19:17:16 · 515 阅读 · 0 评论 -
机器学习——主成分分析(PCA)
机器学习——主成分分析(PCA)1 从KNN算法到PCA1.1 KNN算法引入KNN算法,也称为K近邻算法,是一种非常常用的监督学习方法,其核心思想十分简单,给定某个训测试样本,基于某种距离计算方法来计算与其最近的K个邻居,然后根据K个邻居的分类来决定测试样本的分类。 K近邻算法特点包括以下几个:无需进行事先的模型训练。训练的过程就是将训练样本保存起来。因为没有训练过程,所以预测的过程...原创 2020-02-11 12:58:27 · 1820 阅读 · 0 评论 -
机器学习——概率分类(三)高斯概率密度与混合高斯模型
机器学习——概率分类(三)高斯概率密度与混合高斯模型在之前的文章机器学习——概率分类(一)朴素贝叶斯模型一文中,我们主要介绍了机器学习中的概率分类问题。我们提出了简单的朴素贝叶斯模型来进行概率密度的估计。在本篇文章中,我们主要介绍概率密度估计的第二种方法——高斯密度估计。1 高斯概率密度原理1.1 高斯概率密度引入首先,我们假设样本X符合的是高斯分布,当X的维度是一维的时候,其符合的概率分...原创 2020-02-10 11:18:12 · 6068 阅读 · 1 评论 -
机器学习——概率分类(一)朴素贝叶斯模型
机器学习——概率分类(一)朴素贝叶斯模型原创 2020-02-08 20:05:01 · 1288 阅读 · 0 评论 -
机器学习——评价指标
机器学习——评价指标1、结果统计1.1 混淆矩阵表示正样本负样本正样本True Positive(TP)False Negative(FN)负样本False Positive(FP)True Negative (TN)TP:将正样本识别为正样本的数量或者比例FN: 将正样本识别成负样本的数量或者比例FP:将负样本识别成正样本的数量或者比例TN ...原创 2020-02-04 21:29:40 · 399 阅读 · 0 评论 -
机器学习算法—决策树(ID3)算法
决策树(ID3)算法与示例学习1、决策树(ID3)算法1.1 算法概述决策树算法是针对与具有多种属性标签的数据一种机器学习的算法。通过对于数据不同属性的利用来递归地学习构造出一种树形结构。根据每一条数据的各个属性的属性值,沿着决策树的结构向下走,最终找到该数据所属的列别。...原创 2020-01-30 11:07:06 · 3708 阅读 · 0 评论 -
遗传算法原理和Python实现
遗传算法(GA)原理和JAVA实现1、遗传算法概述遗传算法是根据模拟生物进化的方式提出来的。假设,想要培养出能够适应高原气候的羊群。那么首先,我们应该先挑选出不同的羊放在高原上进行饲养,这些被挑选出来的羊被称为是一个群体。在我们挑选出来在高原上进行饲养的群体中,每一只羊在对于高原气候的适应情况是不同的,我们将能够在这种高原气候下生存的时间越长的,称为适应能力越强。我们将这种用存活时间的长短衡量...原创 2019-12-21 14:43:52 · 1672 阅读 · 0 评论