
机器学习
文章平均质量分 73
Lisa_Ren_123
这个作者很懒,什么都没留下…
展开
-
吴恩达新书《Machine Learning Yearning》翻译目录索引
吴恩达出了一本新书,关于机器学习或者说深度学习的tricks。封面如下。 我打算将此书看一遍,也翻译总结一下,方便此后查阅。 这是本书的官网,大家可以输入自己的邮箱订阅,因为目前此书还没有更新完全,但是每更新一部分,就会发到填写的邮箱中。 http://www.mlyearning.org/这本书的目的是教给大家如何建立一个机器学习工程。并不是教一些机器学习算法,而是如何让ML(ma...翻译 2018-07-09 14:00:17 · 2103 阅读 · 0 评论 -
先验概率、后验概率、似然概率概念
先验概率,后验概率,似然概率,条件概率,贝叶斯,最大似然1.先验概率:在贝叶斯统计中,某一不确定量p的先验概率分布是在考虑”观测数据”前,能表达p不确定性的概率分布。它旨在描述这个不确定量的不确定程度,而不是这个不确定量的随机性。可以是基于历史数据的统计,可以由背景常识得出,也可以是人的主观观点给出。一般都是单独事件概率,如P(x),P(y)。2.后验概率:在贝叶斯统计中,一个...转载 2018-07-06 13:26:57 · 12126 阅读 · 0 评论 -
《Machine Learning Yearning》第15章
15 Evaluating multiple ideas in parallel during error analysis 你的团队对提升猫检测器有几个建议:修正你们的算法将狗识别为猫的这个错误。修正你们算法将大型猫科动物(狮子、豹子等)识别成家猫(宠物)这个错误。提升系统对模糊图像的性能。…. 你可以同时有效地评估所有这些想法。我一般会创建一个表格,将浏览那100个错误分...翻译 2018-07-20 21:50:50 · 335 阅读 · 0 评论 -
《Machine Learning Yearning》第16章
这一章主要讲了如何清理那些被错误标记的开发集和测试集样本。 主要是看这些错误标记的样本所占比例。如果小的话可以暂时不管,先提升其他部分。如果较大那么就把他们改正过来。但是要注意的是,一定要同时修改开发集和测试集,保证它们的分布一致性。16 Cleaning up mislabeled dev and test set examples 错误分析过程中,你可能会注意到有些开发集的样本标记错...翻译 2018-07-21 09:23:17 · 277 阅读 · 0 评论 -
《Machine Learning Yearning》第17章
这一章主要讲了,可以将开发集分成两个部分,一部分通过观察内部的样本做错误分析,另一部分拿来调参。17 If you have a large dev set, split it into two subsets, only one of which you look at 假设你有一份5000个样本的大开发集,并且他们错误率是20%。也就是说,你的算法错分了1000个图片。手动检查这100...翻译 2018-07-21 18:19:22 · 359 阅读 · 0 评论 -
《Machine Learning Yearning》第18章
18 How big should the Eyeball and Blackbox dev sets be?你的Eyeball开发集应该要足够大,以至于能得到你算法的主要错误类别。如果正在做一项人类做的好的工作(例如识别图片中的猫),下面有一些粗略的指引:一个Eyeball开发集在你的分类器里有10个错误,这被认为是非常小的。只有10个错误,很难准备估计不同错误类别的影响。但是如果...翻译 2018-08-06 10:13:23 · 297 阅读 · 0 评论 -
git安装配置及使用
1.安装: 从官网https://git-scm.com/download/win下载一直next安装即可。 安装完成后,会出现下图的这些: 当你要上传到GitHub上时,就需要用到Git Bash(相当于终端)。2.使用 首先,我们需要配置一个默认的用户名和邮箱,这样不用以后上传不用每次都填写。 git config –global user.name “yourname” ...原创 2018-08-11 23:12:32 · 264 阅读 · 0 评论 -
矩阵和矩阵转置求导公式
一.向量求导1.向量求标量的导Y = ⎡⎣⎢⎢⎢⎢y1y2⋮ym⎤⎦⎥⎥⎥⎥[y1y2⋮ym]\left[ \begin{matrix} y_1 \\ y_2 \\ \vdots\\ y_m \\ \end{matrix} \right] ,x是标量 那么:∂Y∂x=⎡⎣⎢⎢⎢⎢⎢∂y1x∂y2x⋮∂ymx⎤⎦⎥⎥⎥⎥⎥∂Y...原创 2019-01-15 10:39:38 · 51106 阅读 · 10 评论 -
向量、标量、矩阵之间的求导
一.向量求导1.向量求标量的导Y = ⎡⎣⎢⎢⎢⎢y1y2⋮ym⎤⎦⎥⎥⎥⎥[y1y2⋮ym]\left[ \begin{matrix} y_1 \\ y_2 \\ \vdots\\ y_m \\ \end{matrix} \right] ,x是标量 那么:∂Y∂x=⎡⎣⎢⎢⎢⎢⎢∂y1x∂y2x⋮∂ymx⎤⎦⎥⎥⎥⎥⎥...原创 2018-08-29 15:10:46 · 675 阅读 · 2 评论 -
生成模型和判别模型
最近笔试经常遇到这类问题,所以就干脆总结一下。也让自己加深印象。 这是我参考西瓜书和网上各种资料,加上自己的理解总结的。首先,假设我们要做的是监督学习的分类问题。训练集是样本X和标签C。测试的时候,给我一个X,然后模型来判断这个X到底属于哪一类。1.决策函数所以,我们可以训练一个函数f,令f(X)=C。这样下次给定一个X,将其带入到f中,就能得到预测的类别。f就是一个决策函数。...原创 2018-09-05 21:30:57 · 298 阅读 · 0 评论 -
《Machine Learning Yearning》第10章
10 Having a dev set and metric speeds up iterations 很难知道哪种方法对一个新问题会有用。即使是经验丰富的机器学习研究者在发现满意的解决方案之前都会尝试非常多的方法。在构建机器学习系统时,我常常会这样做:首先对如何构建这个系统有一个想法然后用代码实现这个想法。最后进行一项实验实验,能告诉我这个想法的实现效果。(通常我的第一个想法不会有...翻译 2018-07-12 12:33:44 · 317 阅读 · 0 评论 -
《Machine Learning Yearning》第14章
这一部分讲了误差分析的重要性,在进行一项新的尝试前,可以先完成误差分析,这可以节省很多时间和精力。14 Error analysis: Look at dev set examples to evaluate ideas 当你运行你的猫识别app时,注意到有几个例子会把狗误判为猫。一些狗确实看起来像猫! 一个团队成员建议合并第三方软件,能使系统在狗图片上处理得更好。这些改变需要一个...翻译 2018-07-18 12:35:27 · 297 阅读 · 0 评论 -
《Machine Learning Yearning》第13章
第二部分开始啦。主题是基本错误分析13 Build your first system quickly, then iterate 你打算做一个新的反垃圾邮件的系统,你的团队有下面几个想法:收集大量的垃圾邮件做训练数据。例如,设置“蜜罐(honeypot)”:故意给已知的垃圾邮件发送者发送假邮件地址,那么你就可以自动收集他们发送给这些地址的垃圾邮件了。开发能理解邮件内容的功能。开...翻译 2018-07-18 09:07:54 · 319 阅读 · 0 评论 -
《Machine Learning Yearning》第一章-第二章
一.Why Machine Learning Strategy 机器学习已经成为无数重要应用程序的基础,包括网络搜索,反垃圾Email、语言识别、产品推荐等。假设你或者你的团队正在做一个ML应用,并且你希望能快速取得进展,那么这本书将会对你有帮助例如:建立猫图片的启动 假设您正在建立一个程序,为猫爱好者提供源源不断的猫图片。 你用了一个神经网络去建立一个计算机视觉系统,获...翻译 2018-07-09 19:24:23 · 732 阅读 · 0 评论 -
《Machine Learning Yearning》第三章-第四章
这两章主要说了监督学习的重要性,以及可能需要一些深度学习的基础知识,通过Coursera可以获取。同时提出了影响学习算法的比较重要的两个因素,一个是神经网络的大小,还有一个是数据。具体的解释在以后的章节。三. Prerequisites and Notation 如果你已经学过机器学习课程,例如我的Coursera上的MOOC课程,或者你已经有应用监督学习的经验,那么你能够理解本文。 ...翻译 2018-07-09 20:22:45 · 435 阅读 · 0 评论 -
《Machine Learning Yearning》第5章
接下来的几章都是讲关于验证集和测试集的设置。 第五章主要内容: 1.以前基本上将训练集和测试集7:3划分,但是现在数据越来越多,可能就不适用了。 2.训练集、验证集、测试集的作用。 3.描述了一种情况,就是用于训练算法的数据(包括训练集和验证集甚至是测试集)与实际上想真正运行的数据的分布(特征)不一样。这种情况下,实际运行效果不好。 4.给出几个建议。五. Your developm...翻译 2018-07-10 10:31:33 · 353 阅读 · 0 评论 -
《Machine Learning Yearning》第6章
第六章主要内容:1.开发集和测试集要保持同一分布的重要性。 2.如果开发集表现好,测试集表现不好,可能由什么原因导致。 3.要保证模型的泛化性是很难的一个问题,可能运气成分居多。六 . Your dev and test sets should come from the same distribution 你把你app的猫图像分为了四个大市场区域(i)美国,(ii)中国,(i...翻译 2018-07-11 10:17:39 · 479 阅读 · 0 评论 -
《Machine Learning Yearning》第7章
这一章主要内容: 1.样本数量适中(100-1000)时,开发集/测试集的比例为7:3比较合理。 2.数量很大时,这个比例需要改变。所需的精度越高,样本数量应该更大。7 How large do the dev/test sets need to be? 开发集要足够大才能检测你所尝试的算法之间的差异。例如,如果分类器A有90%的准确率,B有90.1%,那么有100个样本的开发集就无法...翻译 2018-07-11 18:51:11 · 295 阅读 · 0 评论 -
《Machine Learning Yearning》第11章
这一章主要讲了什么时候需要改变开发集/测试集或者是评估标准。 在一个项目开始时,一般需要早点确定dev/test set和评估指标,然后在调试过程中,可以再改变它们。文中提出了3种需要改变的情况11. When to change dev/test sets and metrics 我通常会要求我的团队在一周内提出一个初始开发集/测试集和初始指标,甚至更短的时间内。最好是想出一些不完...翻译 2018-07-17 21:02:26 · 222 阅读 · 0 评论 -
《Machine Learning Yearning》第8章
第8章主要内容: 1.尽量选单个数字来优化你的模型。 2.如果想要同时考虑几个指标,可以用一种标准方式将它们组合成一个数字(例如平均)。 3.提到了recall、precision、F1 score。8 Establish a single-number evaluation metric for your team to optimize 分类准确性可以用一个数字来衡量:你在开发集...翻译 2018-07-11 19:53:31 · 288 阅读 · 0 评论 -
《Machine Learning Yearning》第9章
第9章主要内容: 提出了多个指标的优化方式:不像之前那样用一个公式将它们结合起来。而是为一部分指标设阈值,在满足这个阈值的条件下优化另一个指标。9 Optimizing and satisficing metrics 这里有另一种可以将多个评估指标结合起来的方式。 假设你同时关心准确率和算法运行时间。你要从下面三个分类器中进行挑选。 要将准确率和运行时间推导成一个公式似乎有点...翻译 2018-07-12 08:49:41 · 341 阅读 · 0 评论 -
《Machine Learning Yearning》第12章
第12章是对设置开发集和测试集这一部分的一个总结。12 Takeaways: Setting up development and test sets 从能反映将来你希望获得的数据的分布上选择开发和测试集,并且想在上面做的更好。这可能跟你的训练集的分布不一样。 如果可能的话,开发集和测试集的分布要一致。 为你的团队选择一个单数字的评估指标来进行优化。如果你关心的是几个指标,那么想办...翻译 2018-07-17 21:48:57 · 222 阅读 · 0 评论 -
《Machine Learning Yearning》第18章
18 How big should the Eyeball and Blackbox dev sets be?你的Eyeball开发集应该要足够大,以至于能得到你算法的主要错误类别。如果正在做一项人类做的好的工作(例如识别图片中的猫),下面有一些粗略的指引:一个Eyeball开发集在你的分类器里有10个错误,这被认为是非常小的。只有10个错误,很难准备估计不同错误类别的影响。但是如果...翻译 2019-01-15 10:40:27 · 322 阅读 · 0 评论