机器学习大致可分为三大类:监督学习、半监督学习、非监督学习
监督学习
所有的监督学习基本上是“分类”的代名词,它从有标签的训练数据中学习模型,然后给定某个新数据,利用模型预测新数据的标签。这里的标签,即使就是某个事物的分类。
根据已知数据集做训练,对未知数据集合做分类
所谓监督学习,就是先用训练数据集合学习得到一个模型,然后再使用这个模型对新样本进行预测。
监督学习的基本流程
监督学习的分类
监督学习大体可分为回归分析和分类学习
回归问题的学习,在某种程度上,等价于函数的拟合,即选择一条函数曲线,使其能很好地拟合已知数据,并较好地预测未知的数据
分类学习算法比较多,著名的有k-近邻(kNN)、支持向量机(SVM)、朴素贝叶斯分类器、决策树、BP方向传播算法
k-近邻算法
给定某个待分类的测试样本,基于某种距离度量,在训练集合中找到与之距离最近的k个训练样本。然后基于这k个最近的“邻居”,进行预测分类。在分类学习中,预测策略通常采取的是多数表决的“投票法”,即将这k个样本中出现最多的类别,标记为最终的结果。在回归任务中,预测策略多采用“平均值”法,将这k个样本标记的平均值作为预测结果。
kNN是一种基于实例的学习,也是懒惰学习的典型代表,懒惰学习在训练阶段仅仅将样本保存起来。
kNN的不足之处:“多数表决”会在