Section 1 分类
监督学习:从输入模型中预测合适的模型,从中计算出目标变量。必须知道预测什么,即目标变量的分类信息。
目标变量分为标称型和数值型两类,在第一部分分类当中研究标称型的目标变量。
1. 机器学习基础
1.1 何谓机器学习
- 简单来说,机器学习就是把无序的数据来转化为有用的信息。
- 例子:专家系统。
测量所有可测属性(特征),然后从中挑选出重要部分。
算法训练,学习如何分类。输入大量已分类样本作为算法的训练集。 - 为了测试机器学习算法的效果,通常使用两套独立的样本集:训练集和测试集。用后者来计算算法的计算精度。
- 知识表示
1.3 机器学习的任务
1.4 选择合适的算法
需要考虑:
- 使用机器学习算法的目的。预测目标变量的值,选择监督学习算法;进一步考虑如何目标变量类型,如果是离散型,选择分类器算法,如果是连续型,选择回归算法。否则,选择无监督学习算法,进一步分析是否将数据划分为离散的组,如果是选择聚类算法,如果还需求估计数据与每个分组的相似程度,选择密度估计算法。
- 需要分析和收集的数据是什么。数据是离散性还是连续型;是否存在缺失值和异常值等等。
不存在最好的算法,需要反复试错。
1.4 机器学习算法的步骤
- 收集数据
- 准备输入数据。即处理数据的格式以及数据类型。
- 分析输入数据。目的是确保数据集中没有垃圾数据,检验数据集中是否存在空值和异常值,如果存在,需要采用方法及进行处理。检验的方法最简单的就是打开数据文件进行观察,可以采用简单图形化的形式比较直观的观察,也可以借助python中的库来进行检查。
- 训练算法。如果使用无监督学习算法,则跳过该步。
- 测试算法。如果不满意算法的输出结果,那么跳回第四步,进行改正和重新测试;也有可能是数据的准备出现问题,那么跳回第一步重新收集数据。
2. k-近邻算法
2.1 k-近邻算法概述
- k-近邻算法采用测量不同特征值之间的距离方法进行分类。
- 优点在于精度高、对于异常值不敏感、无数据假定输入。缺点在于计算复杂度和空间复杂度高。适用于数值型和标称型。
5. Logistic回归
主要思想是根据现有数据对于分类边界线建立回归公式,并以此进行分类。
5.1 基于Logistic回归以及Sigmoid函数的分类
- 为了处理瞬间跳跃过程,引入sigmoid函数。
- 为了实现Logistic回归分类器,在每个特征上乘以回归系数相加代入sigmoid函数,得到0-1之间的值,小于0.5被分入0类,大于0.5被分入1类。
5.2 基于最优化算法的最佳回归系数确定
sigmod函数的输入:
z
=
w
T
x
z=w^Tx
z=wTx
/