机器学习(Machine Learning)有众多的应用领域,目前比较活跃的主要是数据挖掘(data mining),计算机视觉(computer vision, CV),自然语言处理(natural language processing, NLP),机器人决策这四大领域。
数据挖掘:
通俗的说是从大量已获取的案例中寻找出数据的关系或规律,从而可以对新采集的样本进行预测或分类。数据挖掘可以说是机器学习历史最悠久的应用领域,在人工智能的概念还没有被提出的时候,统计学家的研究已经比较成熟了。其实我们在中学时就已经学习过相关内容,例如:
中学时期的数学课上,我们学会了绘制散点图,用最小二乘法(least square method)求解出回归直线从而解决问题。真实的回归案例与中学时的问题思想上是类似的,只是多数情况下会有更多的变量而已。
在一个问题中,当我们需要预测的不是连续的实数值,而是离散的类别时,这个问题被称为分类问题。如下图所示,为了预测一个病人是否患有糖尿病,我们可以设计一个模型,从大量的案例(体检的数据以及是否患有糖尿病的诊断)中寻找到规律,从而使用这个模型对其他人进行诊断。这种计算机辅助医疗的技术已经逐步应用在真实的场景中了。
计算机视觉
即让计算机可以“看”懂世界。例如计算机可以完成图像分类、OCR(光学字符识别)、目标检测、语义分割、场景理解等任务。