机器学习又称为预测分析或统计学习,是一个交叉学科,是从数据中提取知识。
在早期,需要人为制定决策规则来完成设计任务。
存在的缺点:
(1)只适用于单一领域和单项任务,需求修改,有可能要重写整个系统;
(2)制定规则的人必须对决策过程非常熟悉。
机器学习算法仅向程序输入海量数据,算法就可以提取需要的特征。
监督学习算法:从输入输出对中进行学习的机器学习算法。
应用:
识别信封上手写的邮政编码
基于医学影像判断肿瘤是否为良性
检测信用卡交易中的诈骗行为
无监督学习算法:只有输入数据是已知,没有输出数据。
应用:
确定一系列博客文章的主题
将客户分成具有相似偏好的群组
检测网站的异常访问模式
概念:
样本:机器学习中,每个实体或每一行
特征:机器学习中的每一列