machine learning个人笔记系列 (三)

本文深入解析逻辑回归算法,从背景到模型构建,详细介绍了信号函数及其应用,损益函数的定义与计算,以及如何通过梯度下降法优化模型参数。同时,文章探讨了高级优化算法的应用及多分类问题的解决方案。

向Andrew Ng的机器学习课程致敬

逻辑回归(分类算法)

背景

邮件中有垃圾邮件和正常邮件,如何过分辨垃圾邮件和正常邮件,从而过滤掉垃圾邮件。将正常与非正常分别用0,1来表示,则需要预测值为{0,1}这个集合中。

模型

模型公式为:

hθ(x)=11+eθTx h θ ( x ) = 1 1 + e − θ T x

这其实是一个信号函数,模型的曲线为下图的右下角:
这里写图片描述

  • hθ(x) h θ ( x ) 表示给定x的值后该模型上 y=1 y = 1 的概率
  • 0<=hθ(x)<=1 0 <= h θ ( x ) <= 1 ,然后设定一个阈值,比如0.5,则高于0.5认为是1,低于0.5是0。这样就可以达到分类的效果。

我们拆分模型来看,其实是两个公式拼凑到一块:

hθ(x)=g(θTx)g(z)=11+ez h θ ( x ) = g ( θ T x ) g ( z ) = 1 1 + e − z

如果 hθ(x)>=0.5 h θ ( x ) >= 0.5 意味着 θTx>=0 θ T x >= 0

损益函数

函数

如果模型预测值与真实值一致,那模型就非常完美了。为了计算模型与真实值的差距,根据差距大小以此来选择合适的模型参数,让模型最接近真实值是模型的优化方向。为此定义如下损益函数来计算逻辑回归模型的预测值与真实值的差距:

Cost(hθ(x),y)={log(hθ(x))ify=1log(1hθ(x),ify=0 C o s t ( h θ ( x ) , y ) = { − l o g ( h θ ( x ) ) , i f y = 1 − l o g ( 1 − h θ ( x ) , i f y = 0

如下面两图左下角所示,上面是当 y=1 y = 1 时的曲线图,下面是 y=0 y = 0 时的曲线图。

这里写图片描述
这里写图片描述

梯度下降法优化模型

为了更适合用梯度下降算法求解参数,转化一下损益函数为下面格式:

J(θ)=1mi=1mCost(hθ(x(i)),y(i)) =1m[i=1my(i)loghθ(x(i))+(1y(i))log(1hθ)(x(i))] J ( θ ) = 1 m ∑ i = 1 m C o s t ( h θ ( x ( i ) ) , y ( i ) )   = − 1 m [ ∑ i = 1 m y ( i ) l o g h θ ( x ( i ) ) + ( 1 − y ( i ) ) l o g ( 1 − h θ ) ( x ( i ) ) ]

每次迭代更新参数方式为:

θj:=θjαi=1m(hθ(x(i))y(i))x(i)j θ j := θ j − α ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i )

高级优化算法

  • Conjugate gradient
  • BFGS
  • L-BFGS
    这些算法不用选学习率,并且更快,但是比较复杂。暂时不介绍这些算法,于我们理解模型没有什么太大用处。

多分类

多分类问题是二分类的一个扩展,如下图所示,一个数据集里有三种类型数据,如何区分?
直观的想法是,将其转换为二分类问题,属于某一类和不属于某一类,这样分多次就形成了多分类模型。
这里写图片描述

具体的做法就是:
1. 为每一类 i i 数据训练一个模型hθ(i)(x)
2. 对每个数据都使用所有模型求出预测值,将该数据分类为模型值最大的那个分类,即 Max h(i)θ(x) M a x   h θ ( i ) ( x )

Pattern recognition and machine learning是一门涉及到模式识别和机器学习的课程,通过这门课程的学习,我对模式识别和机器学习有了更深入的了解。 在模式识别方面,我学习了如何使用统计学和概率论的知识对数据进行分析,识别出数据中的规律和模式。通过学习不同的模式识别算法,我了解了如何利用机器来识别图像、音频、文本甚至是生物特征等不同类型的模式。在机器学习方面,我学习了如何利用机器学习算法来训练模型,使得机器可以从数据中学习规律和模式,进而做出预测和决策。 通过学习这门课程,我对机器学习和模式识别的应用有了更清晰的认识,比如在图像识别、语音识别、自然语言处理、生物特征识别等领域的应用。我也学习到了如何应用这些知识和技术来解决现实生活中的问题,比如医疗诊断、金融风控、智能驾驶等领域的应用。 另外,通过课程中的实践项目,我有机会动手实践机器学习算法的应用,从数据的处理和特征提取到模型训练和评估,这些实践使我对课程中学到的理论知识有了更深刻的理解。 总的来说,通过学习Pattern recognition and machine learning这门课程,我不仅对机器学习和模式识别的理论和技术有了更深入的了解,也掌握了一些实践应用的技能,对未来在相关领域的发展和应用有了更清晰的思路和认识。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值