一. 什么是机器学习
1. 概念
机器学习(Machine Learning,ML)是一门多领域的交叉学科,涉及概率论、统计学、线性代数、算法等多门学科。
机器学习所研究的主要内容
是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜)。
如果说计算机科学是研究关于“算法”的学问,那么类似的,可以说机器学习是研究关于“学习算法”的学问。
机器学习已经有了十分广泛的应用,例如:数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、检测信用卡欺诈、证券市场分析、DNA序列测序、语音和手写识别、战略游戏和机器人运用。
2. 机器学习算法分类
机器学习的算法分为两大类:监督学习和无监督学习。
监督学习
监督学习即在机器学习过程中
提供对错指示
。一般是在数据组中包含最终结果(0,1),通过算法让机器自己减少误差。这一类学习主要应用于分类和预测
(Regression &Classify)。
基本逻辑
监督学习从给定的训练数据集中学习出一个目标函数
,当新的数据到来时,可以根据这个函数预测结果
。监督学习的训练集要求包括输入和输出,也可以说包括特征和目标
,训练集中的目标是由人标注的
。