
西瓜书
weixin_41872340
这个作者很懒,什么都没留下…
展开
-
西瓜书16-强化学习
16.1 任务与奖赏我们考虑如何种西瓜,经过浇水除草施肥,经过一段时间后才能收获西瓜,通常要收获后,我们才知道种出的瓜好不好,在种瓜过程中我们执行某个操作(如施肥)时,并不能立即获得最终奖赏(好瓜),仅能得到一个当前反馈(瓜苗更加健壮),我们需要多次种瓜,在种瓜过程中不断摸索,才能总结出较好的种瓜策略,这个过程抽象出来,就是“强化学习”强化学习任务通常用马尔可夫决策过程来描述:机器处于环境E...原创 2020-06-28 15:23:21 · 192 阅读 · 0 评论 -
西瓜书15 规则学习
15.1 基本概念机器学习中的规则通常是指语义明确,能描述数据分布所隐含的客观规律或领域概念,可写成“若…则…”形式的逻辑规则,“规则学习”是从训练数据中学习出一组能用于对未见示例进行判别的规则。形式化地看,一条规则形如:其中逻辑符号“←”右边部分称为“规则体”,表示该条规律的==“前提”==,左边部分称为“规则头”,表示该条规则的结果,规则体是由逻辑文字fk组成的合取式,其中合取符号“^...原创 2020-06-28 15:23:10 · 306 阅读 · 0 评论 -
西瓜书14-概率图模型
chapter 14 概率图模型14.1 隐马尔可夫模型机器学习最重要的任务,是根据一些已观察到的证据(例如训练样本)来对感兴趣的未知变量(例如类别标记)进行估计和推测,概率模型提供了一种描述框架,将学习任务归结于计算变量的概率分布,在概率模型中,利用已知变量推测未知变量的分布称为“推断”,其核心是如何基于可观测变量推测出未知变量的条件分布。具体来说,假定所关心的变量集合为Y,可观测变量集合...原创 2020-06-28 15:22:58 · 256 阅读 · 0 评论 -
西瓜书13-半监督学习
chapter13 半监督学习13.1 未标记样本能不能将未标记的样本也用上呢?我们有训练样本{(x1,y1),(x2,y2),…,(xl,yl)},这l个样本的类别标记已知,称为“有标记样本”,此外,还有{xl+1,…,xl+u}这u个样本的标记未知,称为“未标记样本”。若直接使用传统监督学习技术,则仅有Dl能用于构建模型,Du所包含的信息被浪费了。另一方面,若Dl较小,则由于训练样本不足...原创 2020-06-28 15:22:45 · 194 阅读 · 0 评论 -
西瓜书12-计算学习理论
chapter 12 计算学习理论计算学习理论研究的目的是分析学习任务的困难本质,为学习算法提供理论保证,并根据分析结果指导算法设计。给定样例集D={(x1,y1),(x2,y2),…,(xm,ym)},本章主要讨论二分类问题,Y={-1,+1},假设所有样本服从一个隐含未知的分布D’,D中所有样本都是独立地从这个分布上采样而得,即独立同分布样本。令h为从x到y的映射,其泛化误差为:经验...原创 2020-06-28 15:22:31 · 180 阅读 · 0 评论 -
西瓜书11-特征选择与稀疏学习
chapter 11 特征选择与稀疏学习11.1 子集搜索与评价给定属性集,其中有些属性可能很关键,而另一些属性可能没什么用,我们将属性称为“特征”,对当前学习任务有用的属性称为“相关特征”,没什么用的称为“无关特征”,从给定的特征集合中选择出相关特征子集的过程,称为“特征选择”。特征选择是重要的数据预处理过程,在现实机器学习任务中,获得数据后通常先进行特征选择,此后再训练学习器,那么为何要...原创 2020-06-28 15:22:20 · 269 阅读 · 0 评论 -
西瓜书学习笔记-10 降维与度量学习
chapter 10 降维与度量学习10.1 k近邻学习k近邻(k nearest neighbor,knn)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最接近的k个训练样本,然后基于这k个邻居的信息对该测试样本进行预测。对于分类任务,还是采用“投票法”决定测试样本的标记。在回归任务中,使用的是“平均法”,即将这k个邻居的平均值作为预测结...原创 2020-06-28 15:22:09 · 490 阅读 · 0 评论 -
西瓜书学习笔记9-聚类
chapter 9 聚类9.1聚类任务在无监督学习中,训练样本的标记未知,目标是通过无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习中应用最广,研究最多的是“聚类”。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个簇,通过这样的划分,每个簇可能对应一些潜在的概念(类别),如“浅色瓜”,“深色瓜”,“有籽瓜”等。这些概念对聚类算法而言...原创 2020-06-28 15:21:53 · 857 阅读 · 0 评论 -
西瓜书学习笔记8-集成学习
chapter 8 集成学习8.1 个体与集成集成学习通过构建并结合多个学习器来完成学习任务,也被称为多分类器系统。基本策略是先产生一组“个体学习器”,再用某种策略将它们结合起来。个体学习器通常由一个现有的学习算法从训练数据中产生,例如决策树,BP等。此时集成中只包含同种类型的个体学习器。例如“决策树集成”中都是决策树。这样的集成是“同质”的。同质集成中的个体学习器称为“基学习器”,相应的...原创 2020-06-28 15:21:39 · 616 阅读 · 0 评论 -
西瓜书学习笔记7-贝叶斯分类器
chapter 7 贝叶斯分类器7.1 贝叶斯决策论贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情形下,贝叶斯决策论考虑如何基于概率和误判损失来选择最优的类别标记,以多分类为例解释原理:假设分类问题有N种可能的类别,λij是将真实标记为j的样本误分类为i所产生的损失,基于==后验概率P(ci丨x)==可获得将样本x分类为ci所产生的 期望损失,即在样...原创 2020-06-28 15:21:24 · 700 阅读 · 0 评论 -
西瓜书学习笔记6-SVM
chapter 6 支持向量机6.1 间隔与支持向量分类学习的基本思想就是在样本空间中找到一个划分超平面,将不同类别的样本分开。这个划分超平面所产生的分类结果是最鲁棒的,对未见示例的泛化能力最强。w为法向量,决定了超平面的方向,b为位移项,决定了超平面与原点的距离。样本空间中任一点到超平面的距离为:注意:使等号成立,等号成立时最近样本离超平面的距离就是1/|w|间隔:两个异类支...原创 2020-06-28 15:21:08 · 222 阅读 · 0 评论 -
西瓜书笔记第五章-神经网络
chapter 55.1 神经元模型定义:神经网络是由具有适应性的,简单单元组成的,广泛并行互联的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反映。神经网络的基本单元是神经元模型,当一个神经元兴奋时,会向相连的神经元发送化学介质,从而改变神经元内的电位,如果某神经元的电位超过了阈值,那么就会兴奋起来(阈值就是平时所说的偏差bias)。M-P神经元模型 :模型中,神经元接受...原创 2020-06-28 15:20:53 · 841 阅读 · 0 评论 -
西瓜书笔记(4)
## chapter 4 决策树4.1 基本流程决策树是常见的机器学习方法,我们希望从给定的训练数据集中学得一个模型用以对新示例进行分类,这个把样本分类的任务,可看做对“当前样本属于正类吗?” 这个问题的决策或判定过程。决策树是基于树结构来进行决策的:决策过程中的最终结论对应了希望的判定结果,例如“是”或“不是”好瓜,决策过程中提出的每个判定问题都是对每个属性的测试,例如“色泽=?”“根...原创 2020-06-28 15:18:13 · 346 阅读 · 0 评论 -
西瓜书笔记(3)
chapter 3 线性模型3.1 基本形式许多功能强大的非线性模型,可在线性模型的基础上,通过引入层级结构或高维映射而得。且线性模型的w直观表达了各属性在预测中的重要性,因此有很好的可解释性。3.2 线性回归...原创 2020-06-28 15:19:18 · 314 阅读 · 0 评论 -
西瓜书学习笔记(2)
西瓜书学习笔记chapter 22.1 经验误差与过拟合分类错误的样本数占总样本的比例称为“错误率”(error rate)精度=1-错误率学习器的实际预测输出与样本的真实输出之间的差异称为“误差”,在训练集上称为训练误差,测试集上称为泛化误差。过拟合的原因:学习能力太过强大,学习到了训练集中的不太一般的特性。欠拟合则是学习能力不够,可以通过在决策树学习中扩展分支,在神经网络中增加训...原创 2020-06-28 15:19:48 · 272 阅读 · 0 评论 -
西瓜书学习笔记(1)
西瓜书学习笔记chapter 1预测任务分为:若预测的是离散值,如好瓜,坏瓜,则称为“分类”;若预测的是连续值,如西瓜的成熟度0.96,则称为“回归”;预测任务的目标是建立输入到输出的映射f。对西瓜做聚类,把西瓜分为若干组,每一组称为一个“簇”;在聚类任务中,分类的标准事先并不清楚,且训练样本通常不拥有标记(label)。监督学习:分类和回归无监督学习:聚类学得的模型适用于新样...原创 2020-06-28 15:20:23 · 149 阅读 · 0 评论