作者:禅与计算机程序设计艺术
1.简介
机器学习(Machine Learning)是一门研究计算机怎样模拟或实现人类学习过程的科学。它涉及到计算机如何自动获取、整理和分析数据、并用模型建立预测模型或解决决策问题等领域。机器学习可以分为监督学习、非监督学习和强化学习三个子领域。
监督学习:在监督学习中,训练数据既包括输入的特征值(X)也包括目标输出(y)。监督学习的任务就是利用这些输入-输出对进行学习,以发现数据的内在规律性,并依此对新的数据进行预测和分类。监督学习的典型案例就是支持向量机(SVM),它能够根据给定的训练数据集,通过求解优化的目标函数,找到一个最优的超平面(decision boundary),将新的数据划分到不同的类别中。另外,统计学习方法(Statistical learning method)也是属于监督学习的一种方法。
非监督学习:在非监督学习中,训练数据只有输入的特征值(X),没有目标输出(y)。其目的在于寻找数据的内在结构,并基于这个结构进行数据聚类、降维、关联分析等。常用的算法有K均值法(k-means clustering)、高斯混合模型(Gaussian mixture model)、DBSCAN