Machine Learning - Andrew Ng on Coursera (Week 3)

本篇文章深入解析Coursera上的Andrew Ng的MachineLearning第三周课程,涵盖分类问题及模型表示、逻辑回归模型、多类别的分类问题以及解决过拟合问题等内容。通过Sigmoid函数、决策边界、代价函数优化和梯度下降算法,详细阐述了逻辑回归模型的理论与实践应用。此外,文章还介绍了多类别分类问题的解决方法,如一对多分类策略。针对过拟合问题,提出了特征选择和正则化等解决方案,旨在提高模型泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇文章将分享Coursera上Andrew Ng的Machine Learning第三周的课程,主要内容有如下,详细内容可以参考文末附件:

分类问题及模型表示

首先Andrew给出了几个例子来解释什么是分类问题,包括垃圾邮件的识别、在线交易的欺诈判别以及肿瘤是良性还恶性。从线性回归对连续值的预测转为了对离散值的预测。在只有两类的分类问题中,用0和1来表示否与是。在此情况下,便不宜用线性回归函数来分类,而需要选择另外的[Math Processing Error]来解决此类问题,并且满足[Math Processing Error],于是选择了Sigmod函数,又称为Logistic函数。Sigmoid函数是一个在生物学中常见的S型的函数,在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作阈值函数,将变量映射到0,1之间,还被广泛应用于神经网络的激活函数中。因此,逻辑回归模型假设如下:

[Math Processing Error]

[Math Processing Error]

[Math Processing Error]

[Math Processing Error]的输出结果,则表示在给定[Math Processing Error][Math Processing Error]条件下,[Math Processing Error]的概率,即:

[Math Processing Error]

在使用时我们可以认为:

  • 如果[Math Processing Error],则[Math Processing Error]
  • 如果[Math Processing Error],则[Math Processing Error]

接下来引入了决策边界(Decision Boundary)的概念,如下图中紫色的斜线所示,这条线的表示实际上就是[Math Processing Error]的表达式,因此它是假设公式[Math Processing Error]的属性,而非数据集的属性。

决策边界

对于不同的假设公式,当变量的数量、阶次不一样时(如双变量二次方程可以表示椭圆,更高阶的方程则可以表示更多非线性的决策边界),可以表示出不同的决策边界,以更好地将数据集分类并预测新数据的分类结果。

逻辑回归模型

在定义了逻辑回归模型的[Math Processing Error]之后,要求[Math Processing Error]还需要定义代价函数。回顾线性回归的代价函数,并将其变形写成更一般的形式,对于不同的问题只需要替换其中的[Math Processing Error]即可,如下所示:

[Math Processing Error]

[Math Processing Error]

线性回归中,代价函数是凸函数,否则无法使用梯度下降的方式进行求解。好在逻辑回归的代价函数有着良好的性质,在无论[Math Processing Error]等于1还是0,都是单调的凸函数(函数图像可参见文末附件中相应部分),其代价函数[Math Processing Error]如下所示:

逻辑回归代价函数

在将此代价函数代入[Math Processing Error]的时候有个小技巧,可以将两个条件表达式转化成一个表达式:

[Math Processing Error]

对上式就可采用梯度下降法拟合参数[Math Processing Error]了,迭代更新参数的方法同线性回归一样,不过需要注意的是在线性回归中[Math Processing Error],而逻辑回归中[Math Processing Error]

此外,还提到了几种梯度下降的优化算法,分别补充了一篇相关的文章,如果感兴趣可以做一个简单了解:

本课程中不要求理解优化算法的原理,也无需自己编写这些算法的代码,除非是数值计算方面的专家或者爱好者。一般直接调用现有的库就可以了,高效且方便。这些算法不需要选择具体的[Math Processing Error]值,可以让算法更快收敛。接下来用Octave的fminunc命令实现了代价函数的优化求解过程。

多类别的分类问题

当对象类别多于两个时,如邮件标识、医学诊断、天气等等,原有的双类分类问题就变成多类别的分类问题,如下图所示:

双类分类 vs 多类别分类

此时可以采用一对多(one-vs-all)的分类方法,即对每一类训练一个分类器,将该类与其他所有类别分开。然后再用这些分类器判定新到数据属于各类的概率,取其最大者,如下图所示:

One-vs-all分类方法

解决过拟合问题

首先以三个线性回归的例子、三个逻辑回归的例子分别说明了什么是欠拟合(High bias)、过拟合(High variance)和刚刚好(Just right fitting...恕我也不知道怎么翻译贴切了)。以及解决过拟合的两种方法:

  1. 减少特征值的数量,采用人工或者算法自动选择;
  2. 正则化,矩阵特征值大小,看特征对结果的贡献赋予权重。

然后引入了正则化(Regularization)的概念,即通过引入惩罚权重降低高次项对拟合结果的影响,简化假设公式,从而避免过拟合的现象。正则化代价函数如下所示:

[Math Processing Error]

分别是线性回归和逻辑回归为例,讲解了权重[Math Processing Error]在更新参数时的策略。

对于线性回归,在使用Normalization方法求解时,如果样本的数量小于特征的数量时,[Math Processing Error]是不可逆的(奇异矩阵)或者退化的(Degenerated);如果[Math Processing Error][Math Processing Error]则该矩阵是可逆的(非奇异矩阵),可以用该方法求解。

[Math Processing Error]

附本次分享演示文档:ML-Coursera-Week3

到本课程的最后,Andrew说如果你掌握了到目前为止所学的课程,那么恭喜你,已经比硅谷中大部分的工程师牛逼了,可以用机器学习做产品赚大钱了。不管你们信不信,反正我是信了~

### 回答1: Coursera-ml-andrewng-notes-master.zip是一个包含Andrew Ng的机器学习课程笔记和代码的压缩包。这门课程是由斯坦福大学提供的计算机科学和人工智能实验室(CSAIL)的教授Andrew Ng教授开设的,旨在通过深入浅出的方式介绍机器学习的基础概念,包括监督学习、无监督学习、逻辑回归、神经网络等等。 这个压缩包中的笔记和代码可以帮助机器学习初学者更好地理解和应用所学的知识。笔记中包含了课程中涉及到的各种公式、算法和概念的详细解释,同时也包括了编程作业的指导和解答。而代码部分包含了课程中使用的MATLAB代码,以及Python代码的实现。 这个压缩包对机器学习爱好者和学生来说是一个非常有用的资源,能够让他们深入了解机器学习的基础,并掌握如何运用这些知识去解决实际问题。此外,这个压缩包还可以作为教师和讲师的教学资源,帮助他们更好地传授机器学习的知识和技能。 ### 回答2: coursera-ml-andrewng-notes-master.zip 是一个 Coursera Machine Learning 课程的笔记和教材的压缩包,由学生或者讲师编写。这个压缩包中包括了 Andrew Ng 教授在 Coursera 上发布的 Machine Learning 课程的全部讲义、练习题和答案等相关学习材料。 Machine Learning 课程是一个介绍机器学习的课程,它包括了许多重要的机器学习算法和理论,例如线性回归、神经网络、决策树、支持向量机等。这个课程的目标是让学生了解机器学习的方法,学习如何使用机器学习来解决实际问题,并最终构建自己的机器学习系统。 这个压缩包中包含的所有学习材料都是免费的,每个人都可以从 Coursera 的网站上免费获取。通过学习这个课程,你将学习到机器学习的基础知识和核心算法,掌握机器学习的实际应用技巧,以及学会如何处理不同种类的数据和问题。 总之,coursera-ml-andrewng-notes-master.zip 是一个非常有用的学习资源,它可以帮助人们更好地学习、理解和掌握机器学习的知识和技能。无论你是机器学习初学者还是资深的机器学习专家,它都将是一个重要的参考工具。 ### 回答3coursera-ml-andrewng-notes-master.zip是一份具有高价值的文件,其中包含了Andrew NgCoursera上开授的机器学习课程的笔记。这份课程笔记可以帮助学习者更好地理解掌握机器学习技术和方法,提高在机器学习领域的实践能力。通过这份文件,学习者可以学习到机器学习的算法、原理和应用,其中包括线性回归、逻辑回归、神经网络、支持向量机、聚类、降维等多个内容。同时,这份笔记还提供了很多代码实现和模板,学习者可以通过这些实例来理解、运用和进一步深入研究机器学习技术。 总的来说,coursera-ml-andrewng-notes-master.zip对于想要深入学习和掌握机器学习技术和方法的学习者来说是一份不可多得的资料,对于企业中从事机器学习相关工作的从业人员来说也是进行技能提升或者知识更新的重要资料。因此,对于机器学习领域的学习者和从业人员来说,学习并掌握coursera-ml-andrewng-notes-master.zip所提供的知识和技能是非常有价值的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值