一、机器学习架构
(1)机器学习通过算法,使用历史数据进行训练,训练完成后会产生模型,未来当有新的数据提供时,我们可以用训练产生的模型进行预测,
(2)训练数据是由Features、Label组成
Features:数据的特征,例如湿度,风向,风速,季节,气压
Label:数据的标签,也就是我们希望预测的目标,例如(0,不会下雨,1,会下雨)天气(1,晴天;2,雨天;3,阴天;4,下雪)、气温
训练阶段:训练数据是过去积累的历史数据,可能死文本文件,数据库,或者其他数据来源,经过Feather特征提取后产生Feather数据特征与Label(预测目标)经过机器学习算法的训练后产生模型
预测阶段:新输入的数据可能是(文本文件,数据库或者其他来源),经过特征提取产生Feather,使用训练完成的模型进行预测,最后产生预测结果
二、机器学习的分类(以预测天气为栗)
(1)二元分类(是非选择)
根据特征,例如湿度,风向,风速,季节,气压,希望预测目标Label只有两个选项,所以就是是非题
(2)多元分类(多选选择)
根据湿度,风向,风速,季节,气压等数据特征,预测当前的天气(1,晴天;2,雨天;3,阴天;4,下雪),希望Label有多个选项,所以像选择题
(3)回归分析(值是连续的)
我们已经知道了湿度,风向,风速,季节,气压等数据特征,希望预测当前的天气的气温,预测的目标是一个连续值,所以是计算题,对于无监督学习,从现有的数据我们不知道要预测的答案,所以没有预测目标,clustre聚类分析的目的就是讲=将数据分成几个相异性最大的群组,组群内的相似性很大