1.机器学习定义
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
通过算法使计算机能够模拟人类的判别能力。
2.机器学习能干啥?
模式识别、计算机视觉、数据挖掘、统计学习、语音识别、自然语言处理。
传统学习:有监督、无监督学习,包括:回归、推荐、聚类、分类、挖掘。
人工智能:深度学习、强化学习、迁移学习,包括:神经网络、卷积神经网络、AlphaGo。
3.机器学习怎么用?
输入数据-》数据预处理-》特征工程-》机器学习模型训练-》模型评估-》进行学习或完成离线/在线服务。
4.损失函数
通过模型预测的预测值与真实值之差产生的函数。
5.查全率(召回率)、查准率(正确率)
例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:
查全率=700/1400=50%
查准率=700/(700+200+100)=70%
6.评估参数
MSE:Mean Squared Error
均方误差是指参数估计值与参数真实值只差平方的期望值。MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
RMSE
均方根误差:均方根误差是均方误差的算术平方根。
MAE:Mean Absolute Error
平均绝对误差:平均绝对误差是绝对误差的平均值,平均绝对误差能更好地反映预测值误差的实际情况。
其中f_i表示预测值,y_i表示真实值。
SD:standard Deviation
标准差:标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
其中u表示平均值(u=1/N(x_1+⋯+x_N))
7.Spark MLib
分类、聚类、关联规则、矩阵、向量、优化算法、回归、推荐、决策树等等。