spark-28.spark机器学习_1_引言

1.机器学习定义

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
通过算法使计算机能够模拟人类的判别能力。

2.机器学习能干啥?

模式识别、计算机视觉、数据挖掘、统计学习、语音识别、自然语言处理。
传统学习:有监督、无监督学习,包括:回归、推荐、聚类、分类、挖掘。
人工智能:深度学习、强化学习、迁移学习,包括:神经网络、卷积神经网络、AlphaGo。

3.机器学习怎么用?

输入数据-》数据预处理-》特征工程-》机器学习模型训练-》模型评估-》进行学习或完成离线/在线服务。

4.损失函数

通过模型预测的预测值与真实值之差产生的函数。

5.查全率(召回率)、查准率(正确率)

例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:
查全率=700/1400=50%
查准率=700/(700+200+100)=70%

6.评估参数

MSE:Mean Squared Error

均方误差是指参数估计值与参数真实值只差平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
在这里插入图片描述

RMSE

均方根误差:均方根误差是均方误差的算术平方根。
在这里插入图片描述

MAE:Mean Absolute Error

平均绝对误差:平均绝对误差是绝对误差的平均值,平均绝对误差能更好地反映预测值误差的实际情况。
在这里插入图片描述
其中f_i表示预测值,y_i表示真实值。

SD:standard Deviation

标准差:标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
在这里插入图片描述
其中u表示平均值(u=1/N(x_1+⋯+x_N))

7.Spark MLib

分类、聚类、关联规则、矩阵、向量、优化算法、回归、推荐、决策树等等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值