Spark机器学习的介绍

本文介绍了机器学习的基本架构,包括训练阶段与预测阶段,并详细解释了Features与Label的概念。此外,还介绍了机器学习的三种主要分类:二元分类、多元分类及回归分析,并通过预测天气的实例进行了说明。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、机器学习架构

(1)机器学习通过算法,使用历史数据进行训练,训练完成后会产生模型,未来当有新的数据提供时,我们可以用训练产生的模型进行预测,

(2)训练数据是由Features、Label组成

Features:数据的特征,例如湿度,风向,风速,季节,气压

Label:数据的标签,也就是我们希望预测的目标,例如(0,不会下雨,1,会下雨)天气(1,晴天;2,雨天;3,阴天;4,下雪)、气温

训练阶段:训练数据是过去积累的历史数据,可能死文本文件,数据库,或者其他数据来源,经过Feather特征提取后产生Feather数据特征与Label(预测目标)经过机器学习算法的训练后产生模型

预测阶段:新输入的数据可能是(文本文件,数据库或者其他来源),经过特征提取产生Feather,使用训练完成的模型进行预测,最后产生预测结果

二、机器学习的分类(以预测天气为栗)

(1)二元分类(是非选择)

根据特征,例如湿度,风向,风速,季节,气压,希望预测目标Label只有两个选项,所以就是是非题

(2)多元分类(多选选择)

根据湿度,风向,风速,季节,气压等数据特征,预测当前的天气(1,晴天;2,雨天;3,阴天;4,下雪),希望Label有多个选项,所以像选择题

(3)回归分析(值是连续的)

我们已经知道了湿度,风向,风速,季节,气压等数据特征,希望预测当前的天气的气温,预测的目标是一个连续值,所以是计算题,对于无监督学习,从现有的数据我们不知道要预测的答案,所以没有预测目标,clustre聚类分析的目的就是讲=将数据分成几个相异性最大的群组,组群内的相似性很大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值