机器学习
PeterBishop0
一起进步!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
周志华《Machine Learning》 学习笔记系列(1)
机器学习是目前信息技术中最激动人心的方向之一,其应用已经深入到生活的各个层面且与普通人的日常生活密切相关。本文为清华大学最新出版的《机器学习》教材的Learning Notes,书作者是南京大学周志华教授,多个大陆首位彰显其学术奢华。本篇主要介绍了该教材前两个章节的知识点以及自己一点浅陋的理解。1 绪论1.1 机器学习的定义正如我们根据过去的经验来判断明天的天气,吃货们希望从购买经验中...转载 2018-12-21 23:48:47 · 338 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(13)--特征选择与稀疏学习
上篇主要介绍了经典的降维方法与度量学习,首先从“维数灾难”导致的样本稀疏以及距离难计算两大难题出发,引出了降维的概念,即通过某种数学变换将原始高维空间转变到一个低维的子空间,接着分别介绍了kNN、MDS、PCA、KPCA以及两种经典的流形学习方法,k近邻算法的核心在于k值的选取以及距离的度量,MDS要求原始空间样本之间的距离在降维后的低维空间中得以保持,主成分分析试图找到一个低维超平面来表出原空间...转载 2019-07-29 23:09:08 · 392 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(7)--支持向量机(文末附代码)
上篇主要介绍了神经网络。首先从生物学神经元出发,引出了它的数学抽象模型–MP神经元以及由两层神经元组成的感知机模型,并基于梯度下降的方法描述了感知机模型的权值调整规则。由于简单的感知机不能处理线性不可分的情形,因此接着引入了含隐层的前馈型神经网络,BP神经网络则是其中最为成功的一种学习方法,它使用误差逆传播的方法来逐层调节连接权。最后简单介绍了局部/全局最小以及目前十分火热的深度学习的概念。本篇围...转载 2019-07-19 21:18:51 · 1082 阅读 · 0 评论 -
周志华《Machine Learning》学习拓展知识--经验风险与结构风险
在前面几章的笔记中,都出现了“正则化”这个看似神秘的东西,具体包括:(1)线性模型的最小二乘法中出现非满秩或正定矩阵的情形,从而引入正则化解决了求逆矩阵的难题;(2)BP神经网络为了避免过拟合而引入的正则项;(3)“软间隔”支持向量机在优化目标中添加的正则项或惩罚项。下面将主要围绕这三个方面来阐述经验风险与结构风险。风险函数度量的是平均意义下模型训练的好坏。在模型学习的过程中,对于监督学习,通...转载 2019-07-21 19:02:00 · 413 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(17)--强化学习
上篇主要介绍了概率图模型,首先从生成式模型与判别式模型的定义出发,引出了概率图模型的基本概念,即利用图结构来表达变量之间的依赖关系;接着分别介绍了隐马尔可夫模型、马尔可夫随机场、条件随机场、精确推断方法以及LDA话题模型:HMM主要围绕着评估/解码/学习这三个实际问题展开论述;MRF基于团和势函数的概念来定义联合概率分布;CRF引入两种特征函数对状态序列进行评价打分;变量消去与信念传播在给定联合概...转载 2019-08-02 19:45:20 · 623 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(8)--贝叶斯分类器
上篇主要介绍和讨论了支持向量机。从最初的分类函数,通过最大化分类间隔,max(1/||w||),min(1/2||w||^2),凸二次规划,朗格朗日函数,对偶问题,一直到最后的SMO算法求解,都为寻找一个最优解。接着引入核函数将低维空间映射到高维特征空间,解决了非线性可分的情形。最后介绍了软间隔支持向量机,解决了outlier挤歪超平面的问题。本篇将讨论一个经典的统计学习算法–贝叶斯分类器。7...转载 2019-07-22 13:59:44 · 353 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(9)--EM算法
一、前言EM算法即期望最大化(Expection Maximization)算法。是一种迭代算法,作为一种数据添加算法,在现在的DL学习中经常见到。参考了很多网上的博客,很多都省略了部分推导细节,让推导看起来有点不明不白,自己重新整理了一下,手动推导了一边过程,大家可以作为细节补充看看。二、似然函数和极大似然估计假设总体的概率函数为 p(x ; θ), 其中 θ 是一个未知参数或几个未知参...转载 2019-07-22 17:24:33 · 1038 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(10)--集成学习(文末附代码)
上篇主要介绍了鼎鼎大名的EM算法,从算法思想到数学公式推导(边际似然引入隐变量,Jensen不等式简化求导),EM算法实际上可以理解为一种坐标下降法,首先固定一个变量,接着求另外变量的最优解,通过其优美的“两步走”策略能较好地估计隐变量的值。本篇将继续讨论下一类经典算法–集成学习。9、集成学习顾名思义,集成学习(ensemble learning)指的是将多个学习器进行有效地结合,组建一个“...转载 2019-07-26 23:06:11 · 686 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(11)--聚类(文末附代码)
上篇主要介绍了一种机器学习的通用框架–集成学习方法,首先从准确性和差异性两个重要概念引出集成学习“好而不同”的四字真言,接着介绍了现阶段主流的三种集成学习方法:AdaBoost、Bagging及Random Forest,AdaBoost采用最小化指数损失函数迭代式更新样本分布权重和计算基学习器权重,Bagging通过自助采样引入样本扰动增加了基学习器之间的差异性,随机森林则进一步引入了属性扰动,...转载 2019-07-27 22:51:14 · 809 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(14)--计算学习理论
上篇主要介绍了常用的特征选择方法及稀疏学习。首先从相关/无关特征出发引出了特征选择的基本概念,接着分别介绍了子集搜索与评价、过滤式、包裹式以及嵌入式四种类型的特征选择方法。子集搜索与评价使用的是一种优中生优的贪婪算法,即每次从候选特征子集中选出最优子集;过滤式方法计算一个相关统计量来评判特征的重要程度;包裹式方法将学习器作为特征选择的评价准则;嵌入式方法则是通过L1正则项将特征选择融入到学习器参数...转载 2019-07-30 17:36:20 · 1798 阅读 · 1 评论 -
周志华《Machine Learning》学习笔记(16)--概率图模型
上篇主要介绍了半监督学习,首先从如何利用未标记样本所蕴含的分布信息出发,引入了半监督学习的基本概念,即训练数据同时包含有标记样本和未标记样本的学习方法;接着分别介绍了几种常见的半监督学习方法:生成式方法基于对数据分布的假设,利用未标记样本隐含的分布信息,使得对模型参数的估计更加准确;TSVM给未标记样本赋予伪标记,并通过不断调整易出错样本的标记得到最终输出;基于分歧的方法结合了集成学习的思想,通过...转载 2019-08-02 13:05:04 · 666 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(12)--降维与度量学习(文末附代码)
上篇主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means、LVQ、高斯混合聚类、密度聚类以及层次聚类算法。K-Means与LVQ都试图以类簇中心作为原型指导聚类,其中K-Means通过EM算法不断迭代直至收敛,LVQ使用真实类标辅助聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形...转载 2019-07-29 12:47:26 · 849 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(6)--神经网络(文末附代码)
上篇主要讨论了决策树算法。首先从决策树的基本概念出发,引出决策树基于树形结构进行决策,进一步介绍了构造决策树的递归流程以及其递归终止条件,在递归的过程中,划分属性的选择起到了关键作用,因此紧接着讨论了三种评估属性划分效果的经典算法,介绍了剪枝策略来解决原生决策树容易产生的过拟合问题,最后简述了属性连续值/缺失值的处理方法。本篇将讨论现阶段十分热门的另一个经典监督学习算法–神经网络(neural n...转载 2019-07-15 23:33:25 · 1506 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(2)--性能度量
本篇主要是对第二章剩余知识的理解,包括:性能度量、比较检验和偏差与方差。在上一篇中,我们解决了评估学习器泛化性能的方法,即用测试集的“测试误差”作为“泛化误差”的近似,当我们划分好训练/测试集后,那如何计算“测试误差”呢?这就是性能度量,例如:均方差,错误率等,即“测试误差”的一个评价标准。有了评估方法和性能度量,就可以计算出学习器的“测试误差”,但由于“测试误差”受到很多因素的影响,例如:算法随...转载 2018-12-21 23:52:54 · 481 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(3)--假设检验、方差与偏差
在上两篇中,我们介绍了多种常见的评估方法和性能度量标准,这样我们就可以根据数据集以及模型任务的特征,选择出最合适的评估和性能度量方法来计算出学习器的“测试误差“。但由于“测试误差”受到很多因素的影响,例如:算法随机性(例如常见的K-Means)或测试集本身的选择,使得同一模型每次得到的结果不尽相同,同时测试误差是作为泛化误差的近似,并不能代表学习器真实的泛化性能,那如何对单个或多个学习器在不同或相...原创 2018-12-22 00:16:58 · 351 阅读 · 0 评论 -
深度学习——优化器算法Optimizer详解(BGD、SGD、MBGD、Momentum、NAG、Adagrad、Adadelta、RMSprop、Adam)
在机器学习、深度学习中使用的优化算法除了常见的梯度下降,还有 Adadelta,Adagrad,RMSProp 等几种优化器,都是什么呢,又该怎么选择呢?在 Sebastian Ruder 的这篇论文中给出了常用优化器的比较,今天来学习一下:https://arxiv.org/pdf/1609.04747.pdf本文将梳理:每个算法的梯度更新规则和缺点 为了应对这个不足而提出的下一个...转载 2018-12-24 13:54:18 · 580 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(4)--线性模型(文末有代码实现)
笔记的前一部分主要是对机器学习预备知识的概括,包括机器学习的定义/术语、学习器性能的评估/度量以及比较,本篇之后将主要对具体的学习算法进行理解总结,本篇则主要是第3章的内容–线性模型。3、线性模型谈及线性模型,其实我们很早就已经与它打过交道,还记得高中数学必修3课本中那个顽皮的“最小二乘法”吗?这就是线性模型的经典算法之一:根据给定的(x,y)点对,求出一条与这些点拟合效果最好的直线y=ax...转载 2019-01-10 15:15:57 · 1409 阅读 · 6 评论 -
周志华《Machine Learning》学习笔记(5)--决策树(文末有代碼)
上篇主要介绍和讨论了线性模型。首先从最简单的最小二乘法开始,讨论输入属性有一个和多个的情形,接着通过广义线性模型延伸开来,将预测连续值的回归问题转化为分类问题,从而引入了对数几率回归,最后线性判别分析LDA将样本点进行投影,多分类问题实质上通过划分的方法转化为多个二分类问题进行求解。本篇将讨论另一种被广泛使用的分类算法–决策树(Decision Tree)。4、决策树4.1 决策树基本概念...转载 2019-01-11 16:42:14 · 617 阅读 · 0 评论 -
随机森林(Random Forest)
作者:Poll的笔记 博客出处:http://www.cnblogs.com/maybe2030/ 写得太好了转载一波阅读目录1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 袋外错误率(oob error) 6 随机森林工作原理解释的一个简单例子 7 随机森林的Python实现 8 参考内容回到顶部1 什么是随机森林...转载 2019-01-13 10:07:19 · 1025 阅读 · 0 评论 -
QA智能问答(QQ匹配)
QA智能问答(QQ匹配)GitHub:https://github.com/PeterBishop0/-参考链接:https://www.cnblogs.com/rucwxb/p/7975504.htmlhttps://www.jianshu.com/p/6e1ef63615f8https://zhuanlan.zhihu.com/p/29119239https://www.cnb...原创 2019-01-28 15:32:51 · 3508 阅读 · 0 评论 -
周志华《Machine Learning》学习笔记(15)--半监督学习
上篇主要介绍了机器学习的理论基础,首先从独立同分布引入泛化误差与经验误差,接着介绍了PAC可学习的基本概念,即以较大的概率学习出与目标概念近似的假设(泛化误差满足预设上限),对于有限假设空间:(1)可分情形时,假设空间都是PAC可学习的,即当样本满足一定的数量之后,总是可以在与训练集一致的假设中找出目标概念的近似;(2)不可分情形时,假设空间都是不可知PAC可学习的,即以较大概率学习出与当前假设空...转载 2019-08-02 11:46:00 · 864 阅读 · 0 评论
分享