python lgbmclassfier的自变量可以为分类变量吗_机器学习之利用Python进行简单线性回归分析...

本文介绍了机器学习的基本概念,包括监督学习、无监督学习和深度学习,并重点讨论了相关分析和回归分析。通过Python的sklearn包展示了如何进行简单线性回归分析,探讨了特征和标签的关系,以及如何评估模型的精度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

d8e30885d5e10e0476602ec30181ec23.png
前言:在利用机器学习方法进行数据分析时经常要了解变量的相关性,有时还需要对变量进行回归分析。本文首先对人工智能/机器学习/深度学习、相关分析/因果分析/回归分析等易混淆的概念进行区分,最后结合案例介绍如何利用Python进行简单线性回归分析。

abd77896156564398e52a7dbaef6f968.png

一、机器学习

1.1什么是机器学习

谈到机器学习,人们会很容易联想到人工智能和深度学习,我们通过这三个概念的对比来说明三者的区别和联系。

人工智能Artificial Inteligence:这个概念早在1956年就被提出,当时科学家梦想着用当时刚刚出现的计算机来构造复杂的、拥有像人类智慧特性的机器。目前,AI的分支很多,诸如专家系统、机器学习、自然语言处理以及推荐系统等。

机器学习Mechine Learning:机器学习是实现人工智能的一种方法,是使用算法解析数据、并从中学习,然后对真实世界中事件作出决策或预测。机器学习是通过大量数据来“训练”算法模型,利用算法从数据中学习如何完成任务。学习方法可以分为:监督学习(如分类)、无监督学习(如聚类)等。(下面介绍一些基础概念)

  • 学习(learning):是指找到特征(feature)和标签(label)的映射(mapping)关系。
  • 有监督学习(supervised learning):不仅将训练数据(特征)丢给计算机,还把分类的结果(数据具有的标签)也一并丢给计算机分析,如分类和回归;
  • 无监督学习(unsupervised learning):只提供训练数据(特征),不给结果(标签),计算机只能利用其计算能力分析数据的特征,然后得到一些数据集合,集合内的数据在某些特征上相同或相似,如聚类分析;
  • 半监督学习(semi-supervised learning):给计算机大量训练数据与少量分类结果(具有同一标签的集合)。
  • 聚类(clustering):无监督学习的结果,聚类的结果将产生若干组集合,同集合中对象彼此相似,与其他集合中对象相异。
  • 分类(classification)与回归(regression):有监督学习的两大应用,其区别在于分别产生离散或连续的结果(分类及回归方法的区别在下文中有较详细分析)。
起名困难症用户:机器学习之利用Python进行逻辑回归分析​zhuanlan.zhihu.com
32b0d5b78adab772c30e675df2b0cbca.png

深度学习Deep Learning:深度学习是机器学习的一种方法,其本身会用到有监督和无监督的学习方法来训练深度神经网络。

6da9d6a2a0fb5b6980be063e8496bfbf.png
人工智能、机器学习、深度学习三者的关系

1.2机器学习的步骤

利用机器学习方法分析、解决问题的过程可分为五个步骤:

304cfc2fcb01814212eb01250bf5aef5.png
机器学习主要步骤

1.提出问题

明确要分析的问题,为后续的机器学习过程提供目标。

2.理解数据(采集并查看数据)

采集数据(根据研究问题采集数据);导入数据(从不同数据源读取数据);查看数据信息(描述统计信息、数据缺失值、异常值情况等,可以结合具体图表来直观查看数据)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值