机器学习基础

本文主要介绍了机器学习的基础知识,包括学习目标、预测分析的四个层次、机器学习的定义及其应用场景。文章强调了机器学习在数据分析中的重要性,如预测用户行为、提升决策效率。还探讨了基于规则学习和基于模型学习的区别,并通过房价预测问题举例说明。此外,文章详细阐述了数据集的基本概念,如样本、特征、属性和属性空间,并介绍了监督学习与无监督学习的区别,如分类和回归分析。最后,文章概述了构建机器学习模型的过程,包括数据预处理、模型训练、模型验证和预测,以及模型选择和泛化误差的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习基础

学习目标

  • 掌握机器学习相关概念
  • 掌握机器学习如何构建机器学习模型过程

1. 为什么学习机器学习?

随着技术的不断发展, 我们使用的分析方式也在不断发展和变化。过去,企业专注于收集有关其客户和产品的数据进行描述性、诊断性分析。但越来越多地,我们希望从收集的数据中进行预测性和规范性分析

1.1 什么是预测分析?

数据分析四个层次: 描述性分析、诊断性分析、预测性分析、规范性分析

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d2oeTN3T-1632647255815)(images/wps4aD33z.png)]

接下来我们通过案例对数据分析4个层次简单了解。

1.2 数据分析4个层次

1.2.1描述性(Descriptive)分析

当前的业务现状如何?

案例:我们之前做过的女鞋业务的零售会员分析,您会看到每个月会员的增量、存量,不同地区的会员运营情况以及百分比。

总结:

  • 描述性分析关注过去
    • 利用历史数据,通过报表,可视化仪表板等形式描述当前业务状况,发现当前的业务问题
    • Excel, SQL,Pandas, BI工具可以帮助我们完成描述性分析
1.2.2 诊断性(Diagnostic)分析

某些问题为什么会发生?

案例:诊断分析举例:

  • 流量波动分析 或者 活动专题分析

分析:回到我们之前的案例,现在我们知道上个月会员增量下降,找到会员增量下降的原因就属于诊断性分析, 是客流量下降导致、还是营销活动不给力、还是热门产品库存出现了问题?

总结:与描述性分析一样,诊断分析也关注过去。但诊断性分析寻找因果关系来说明事情发生的原因。 目的是比较过去发生的事件以确定原因。

我们之前课程学到的内容,如Excel,Tableau,SQL,Pandas等工具就可以帮助我们进行诊断性分析。

1.2.3 预测性(Predictive)分析

我们的业务未来会咋样?

案例:哪些用户会购买我们的商品感兴趣?哪种营销方式会对业务带来最有益的影响?

通过预测分析,我们会知道可能会发生什么。预测分析会用到机器学习算法,帮助预测产品的销量如何?

  • 总结:预测性,规范性分析关注未来
    • 利用历史数据发现规律,创建数据模型,预测业务走向,基于预测结果确定未来运营方案
    • 除了Excel, SQL,Pandas, BI工具之外还需要用到机器学习算法
1.2.4 规范性(Prescriptive)分析

我们要采取何种对策?

在预测性分析的基础上更进一步,需要得出我们要怎么做才能驱动我们的业务快速增长,并明确具体落地步骤(1,2,3……)

使用算法预测不同的方案效果,选择最佳方案

机器学习算法可以帮助我们进行预测/规范性分析。

1.3 为什么学习机器学习?

  • 通过机器学习获取更有价值的信息
    • 预测用户是否会流失,针对可能流失用户做一系列运营策略
    • 预测用户是否存在违约风险,针对可能违约用户拒绝放贷或者提供较高利率

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-20Z8vZED-1632647255817)(images/image-20210702180831950.png)]

1.4 机器学习有哪些应用场景?

  • 机器学习算法在数据分析领域具体应用举例
image-20210702181009809
  • 本阶段我们的学习重点是机器学习算法的使用
    • 利用已有机器学习算法解决业务问题, 而不是去创造新算法
    • 相关三方库都有算法相关实现
    • 着重学习三类算法:聚类分析,回归分析,分类分析

2. 什么是机器学习

2.1 机器学习基础定义

在开始讲解术语概念之前我们首先梳理下之前讲到的一些概念。

(基本认识)机器学习专门研究计算机怎样模拟或实现人类的学习行为,使之不断改善自身性能。是一门能够发掘数据价值的算法和应用,它是计算机科学中最激动人心的领域。我们生活在一个数据资源非常丰富的年代,通过机器学习中的自学习算法,可以将这些数据转换为知识。

(机器学习库)借助于近些年发展起来的诸多强大的开源库,我们现在是进入机器学习领域的最佳时机。

(机器学习目的)从20世纪后半段,机器学习已经逐渐演化成为人工智能的一个分支,其目的是通过自学习算法从数据中获取知识,进而对未来进行预测。与以往通过大量数据分析而人工推导出规则并构造模型不同,机器学习提供了一种从数据中获取知识的方法,同时能够逐步提高预测模型的性能,并将模型应用于基于数据驱动的决策中去。

(应用)机器学习技术的存在,使得人们可以享受强大的垃圾邮件过滤带来的便利,拥有方便的文字和语音识别软件,能够使用可靠的网络搜索引擎,同时在象棋的网络游戏对阵中棋逢对手,而且Google已经将机器学习技术应用到了无人驾驶汽车中。

机器学习模型=数据+机器学习算法

img

2.2 确定是否为机器学习问题

机器学习:从已有的经验中学习经验,从经验中去分析

接下来的若干问题请大家思考哪些问题可以用机器学习方式处理?

(1)计算每种颜色箱子的个数?----确定的问题

(2)计算一组数据平均值大小?----数值计算问题

机器学习目的是建立预测模型–看是否有预测的过程

(1)确定收到的邮件是否为垃圾邮件?

(2)获取2014年世界杯冠军的名字?2018年?

(3)自动标记你在Facebook中的照片

(4)选择统计课程中成绩最高的学生(不是)

(5)考虑购物习惯,推荐相关商品?

(6)根据病人状况确定属于什么疾病?

(7)预测2022年人民币汇率涨or不涨?

(8)计算公司员工的平均工资?

3. 基于规则学习和基于模型的学习

没有机器学习出来之前,我们需要进行判断预测,就需要采用基于规则的学习方式,如下案例:

3.1 基于规则学习

img

大家思考,上述的基于规则的学习有什么问题?我们有什么方法可以改进?

3.2 基于模型学习

基于模型学习就是在基于规则学习之上,避免因为专家带来主观因素的影响。

img

3.3 房价预测问题

接下来在通过房价预测问题看一下如何理解基于模型的预测:

image-20210702181913074

机器学习学习的是什么?

构建机器学习模型,如:y=kx+b,k和b是参数,x和y是特征和类别标签列。机器学习学习的是k和b的参数,如果k和b知道了,直接利用y=kx+b进行预测分析。

4. 机器学习数据的基本概念

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值