
The Quest for ML 读书笔记
文章平均质量分 88
《百面机器学习》
及时行樂_
方向:航空数据异常/攻击检测及分析,欢迎私信交流,共同进步~
展开
-
《百面机器学习》-读书笔记汇总贴(汇总14/14)
文章主要用来记录学习《百面机器学习》的学习笔记,主要根据课本内容来,初步打算按照章节目录将知识点慢慢整理,希望能互相学习,共同提高!目录《百面机器学习》读书笔记(一)-特征工程(待更新)《百面机器学习》读书笔记(二)-模型估计(待更新)《百面机器学习》读书笔记(三)-经典算法(待更新)《百面机器学习》读书笔记(四)-降维(待更新)《百面机器学习》读书笔记(五)-非监督学习(待更新)《百面机器学习》读书笔记(六)-概率图模型(待更新)《百面机器学习》读书笔记(七)-优化算法(待更新)《百面机原创 2021-02-01 12:05:09 · 905 阅读 · 1 评论 -
《百面机器学习》读书笔记(十四)-人工智能的热门应用
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总这一章较之前的十三章略微有些区别,这一章直接将知识点进行罗列出来,而不再是以问题的方式来导出,可能也是应为这一章的内容比较浅显易懂吧。一、计算广告广告是当今互联网商业变现最重要的模式之一。在介绍计算广告的常用算法模型之前,先对互联网广告的主要产品类型和商业模式进行介绍。这里按照互联网广告的商业模型,将其分为合约广告、竞价广告、程序化交易广告等类型。合约广告一般在门户网站和视频网站中较为常见,例如,Hulu广告收入的绝大部分来自于合约广告。竞价广告最原创 2021-02-12 18:42:00 · 294 阅读 · 0 评论 -
《百面机器学习》读书笔记(十三)-生成式对抗网络
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总一、初始GANs的秘密★☆☆☆☆ 简述GANs的基本思想和训练过程。GANs的主要框架包括生成器(Generator)和判别器(Discriminator)两个部分。其中,生成器用于合成“假”样本,判别器用于判断输入的样本是真实的还是合成的。具体来说,生成器从先验分布中采得随机信号,经过神经网络的变换,得到模拟样本;判别器既接收来自生成器的模拟样本,也接收来自实际数据集的真实样本,但我们并不告诉判别器样本来源,需要它自己判断。生成器和判别器是一对“原创 2021-02-12 18:26:30 · 446 阅读 · 0 评论 -
《百面机器学习》读书笔记(十二)-集成学习
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总面对一个机器学习问题,通常有两种策略。一种是研发人员尝试各种模型,选择其中表现最好的模型做重点调参优化。这种策略类似于奥运会比赛,通过强强竞争来选拔最优的运动员,并逐步提高成绩。另一种重要的策略是集各家之长,如同贤明的君主广泛地听取众多谋臣的建议,然后综合考虑,得到最终决策。后一种策略的核心,是将多个分类器的结果统一成一个最终的决策。使用这类策略的机器学习方法统称为集成学习。其中的每个单独的分类器称为基分类器。一、集成学习的种类集成学习是一大类模型融合策原创 2021-02-12 10:27:02 · 394 阅读 · 2 评论 -
《百面机器学习》读书笔记(十一)-强化学习
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总强化学习近年来在机器学习领域越来越火,也受到了越来越多人的关注。强化学习是一个20世纪80年代兴起的,受行为心理学启发而来的一个机器学习领域,它关注身处某个环境中的决策器通过采取行动获得最大化的累积收益。和传统的监督学习不同,在强化学习中,并不直接给决策器的输出打分。相反,决策器只能得到一个间接的反馈,而无法获得一个正确的输入/输出对,因此需要在不断的尝试中优化自己的策略以获得更高的收益。从广义上说,大部分涉及动态系统的决策学习过程都可以看成是一种强化学习。原创 2021-02-11 12:45:07 · 2337 阅读 · 2 评论 -
《百面机器学习》读书笔记(十)-循环神经网络
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总循环神经网络(Recurrent Neural Network,RNN)是用来建模序列化数据的一种主流深度学习模型。我们知道,传统的前馈神经网络一般的输入都是一个定长的向量,无法处理变长的序列信息,即使通过一些方法把序列处理成定长的向量,模型也很难捕捉序列中的长距离依赖关系。RNN则通过将神经元串行起来处理序列化的数据。由于每个神经元能用它的内部变量保存之前输入的序列信息,因此整个序列被浓缩成抽象的表示,并可以据此进行分类或生成新的序列。近年来,得益于计算能原创 2021-02-10 12:38:49 · 408 阅读 · 1 评论 -
《百面机器学习》读书笔记(九)-前向神经网络
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总深度前馈网络(Deep Feedforward Networks)是一种典型的深度学习模型。其目标为拟合某个函数fff,即定义映射y=f(x;θ)y=f (x;θ)y=f(x;θ)将输入xxx转化为某种预测的输出yyy,并同时学习网络参数θθθ的值,使模型得到最优的函数近似。由于从输入到输出的过程中不存在与模型自身的反馈连接,此类模型被称为“前馈”。一、多层感知机与布尔函数★★☆☆☆ 多层感知机表示异或逻辑时最少需要几个隐含层(仅考虑二元输入)?原创 2021-02-09 11:52:26 · 424 阅读 · 1 评论 -
《百面机器学习》读书笔记(八)-采样
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总采样在机器学习中有着非常重要的应用:它可以将复杂的分布简化为离散的样本点;可以用重采样对样本集进行调整以更好地适应后期的模型学习;可以用于随机模拟以进行复杂模型的近似求解或推理。对于一些简单的分布,如均匀分布、高斯分布等,很多编程语言里面都有直接的采样函数。然而,即使是这些简单分布,其采样过程也并不是显而易见的,仍需要精心设计。对于比较复杂的分布,往往并没有直接的采样函数可供调用,这时就需要其他更加复杂的采样方法。因此,对采样方法的深入理解是很有必要的。原创 2021-02-08 10:39:34 · 461 阅读 · 1 评论 -
《百面机器学习》读书笔记(七)-优化算法
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总优化是应用数学的一个分支,也是机器学习的核心组成部分。实际上,机器学习算法 = 模型表征 + 模型评估 + 优化算法。其中,优化算法所做的事情就是在模型表征空间中找到模型评估指标最好的模型。不同的优化算法对应的模型表征和评估指标不尽相同,比如经典的支持向量机对应的模型表征和评估指标分别为线性分类模型和最大间隔,逻辑回归对应的模型表征和评估指标则分别为线性分类模型和交叉熵。随着大数据和深度学习的迅猛发展,在实际应用中面临的大多是大规模、高度非凸的优化问题,这原创 2021-02-07 12:05:38 · 686 阅读 · 0 评论 -
《百面机器学习》读书笔记(六)-概率图模型
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总对于这一部分不太熟悉的,可以看看这篇文章里的视频学习一下:白板推导系列笔记(九)-概率图模型对于一个实际问题,我们希望能够挖掘隐含在数据中的知识。概率图模型构建了这样一幅图,用观测结点表示观测到的数据,用隐含结点表示潜在的知识,用边来描述知识与数据的相互关系,最后基于这样的关系图获得一个概率分布,非常“优雅”地解决了问题。概率图中的节点分为隐含节点和观测节点,边分为有向边和无向边。从概率论的角度,节点对应于随机变量,边对应于随机变量的依赖或相关关系,其中原创 2021-02-06 12:33:30 · 295 阅读 · 0 评论 -
《百面机器学习》读书笔记(五)-非监督学习
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总给机器输入大量的特征数据,并期望机器通过学习找到数据中存在的某种共性特征或者结构,亦或是数据之间存在的某种关联。相比于监督学习,非监督学习的输入数据没有标签信息,需要通过算法模型来挖掘数据内在的结构和模式。非监督学习主要包含两大类学习方法:数据聚类和特征变量关联。其中,聚类算法往往是通过多次迭代来找到数据的最优分割,而特征变量关联则是利用各种相关性分析方法来找到变量之间的关系。一、k均值聚类分类问题属于监督学习的范畴,而聚类则是非监督学习。K均值聚类(原创 2021-02-04 23:15:12 · 307 阅读 · 0 评论 -
《百面机器学习》读书笔记(四)-降维
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总在机器学习中,数据通常需要被表示成向量形式以输入模型进行训练。但众所周知,对向维向量进行处理和分析时,会极大地消耗系统资源,甚至产生维度灾难。因此,进行降维,即用一个低维度的向量表示原始高维度的特征就显得尤为重要。常见的降维方法有主成分分析、线性判别分析、等距映射、局部线性嵌入、拉普拉斯特征映射、局部保留投影等。一、PCA最大方差理论在机器学习领域中,我们对原始数据进行特征提取,有时会得到比较高维的特征向量。在这些向量所处的高维空间中,包含很多的冗余和噪原创 2021-02-04 10:40:07 · 361 阅读 · 1 评论 -
《百面机器学习》读书笔记(三)-经典算法
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总没有最好的分类器,只有最合适的分类器。随着神经网络模型日趋火热,深度学习大有一统江湖之势,传统机器学习算法似乎已经彻底被深度学习的光环所笼罩。然而,深度学习是数据驱动的,失去了数据,再精密的深度网络结构也是画饼充饥,无的放矢。在很多实际问题中,我们很难得到海量且带有精确标注的数据,这时深度学习也就没有大显身手的余地,反而许多传统方法可以灵活巧妙地进行处理。一、支持向量机支持向量机(Support Vector Machine,SVM)是众多监督学习方法中原创 2021-02-03 11:21:15 · 283 阅读 · 0 评论 -
《百面机器学习》读书笔记(二)-模型估计
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总一、评估指标的局限性二、ROC曲线三、余弦距离的应用四、A/B测试的陷阱五、模型评估的方法六、超参数调优七、过拟合与欠拟合原创 2021-02-02 10:23:01 · 699 阅读 · 0 评论 -
《百面机器学习》读书笔记(一)-特征工程
全部笔记的汇总贴:《百面机器学习》-读书笔记汇总特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。结构化数据:数值型、类别型,每一行数据表示一个样本的信息。非结构化数据:文本、图像、音频、视频数据,包含的信息无法用一个简单的数值表示,也没有清晰的类别定义,并且每条数据的大小各不相同。一、特征归一原创 2021-02-01 13:02:46 · 613 阅读 · 1 评论