机器学习——Logistic回归

一、 Logistic回归介绍

1、一些概念

  • 回归:对一些数据点,用一条直线对这些点进行拟合,该线称为最佳拟合直线,这个拟合过程就叫回归。
  • 主要思想:根据现有数据对分类边界线建立回归公式,以此进行分类。

2、一般过程

  • 收集数据:采用任意方法收集数据
  • 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳
  • 分析数据:采用任意方法对数据进行分析
  • 训练算法:大部分时间用于训练,训练的目的是为了找到最佳的分类回归系数
  • 测试算法:一旦训练步骤完成,分类将会很快
  • 使用算法:首先,我们需要输入一些数据,并将其转换成对应的结构化数值;接着,基于训练好的回归系数就可以对这些数值进行简单的回归分析,判定它们属于哪个类别;在这之后,我们就可以在输出的类别上做一些其他分析工作

3、优缺点

  • 优点:计算代价不高,易于理解和实现
  • 缺点:容易欠拟合,分类精度可能不高
  • 适用数据类型:数值型和标称型数据

二、基于Logistic回归和Sigmoid函数的分类

1、Sigmoid函数

  • 一种阶跃函数,取值范围(0,1),可以将一个实数映射到(0,1)的区间,可以用来做二分类。具体的计算公式:在这里插入图片描述
  • 在不同坐标尺度下的两条曲线图:
    在这里插入图片描述
  • 优点:
    (1)值域在0,1之间
    (2)函数具有很好的对称性
    (3)因为输出范围有限,所以数据在传递的过程中不容易发散,相应的缺点就是饱和的时候梯度太小
    (4)求导容易

2、Logistic回归分类器和Sigmoid函数

  • 为了实现Logistic回归分类器,可以在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入Sigmoid函数中,进而得到一个范围在0~1之间的数值。任何大于0.5的数据被分入1类,小于0.5即被归入0类。所以,Logistic回归也可以被看成是一种概率估计。
  • Sigmoid函数的输入记为z,可得:
    采用向量写法: ,表示将这两个数值向量对应元素相乘然后全部加起来得到z值。其中的向量x分类器的输入数据,向量w是我们要找到的最佳参数(系数)

三、基于最优化方法的最佳回归系数确定

一些最优化方法:

1、梯度上升法

(1)思想

  • 要找到某函数的最大值,最好的方法是沿着该函数的梯度方向探寻。如果梯度记为▽,则函数f(x,y)的梯度由下式表示:
    在这里插入图片描述
    这个梯度意味着:要沿x的方向移动
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值