Task 2 - 机器学习基础
参考链接:https://datawhalechina.github.io/unusual-deep-learning/#/
1. 基本概念
机器学习的定义:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。具体来说,从已知数据中学习内在规律,进而对未知数据进行预测。
机器学习的分类:
监督学习的常见方法包括分类和回归;无监督学习的常见方法包括聚类和降维。
数据集的定义:观测样本的集合,其数学表示 S = { x 1 , x 2 , . . . , x n } S=\{x_1, x_2, ..., x_n\} S={x1,x2,...,xn},其中 x i x_i xi是一个m维的向量,表示一个数据样本,m表示样本空间维度。
数据样本的分类:
- 训练集:用来训练模型的样本集合;
- 验证集:用来调整模型的超调参数和模型性能初步评估的样本集合;
- 测试集:用来评估模型最终的泛化能力,不能用来调整模型和训练超调参数
误差分析
误差是算法实际预测与样本真实值之间的差距。
过拟合:是指模型能够很好拟合训练样本数据,但对测试样本预测不佳;
欠拟合:是指模型未能很好地学习数据特征,训练出的模型简单,对训练样本数据预测都不好。
过拟合的对策:
- 增加训练样本
- 减少模型复杂度
- 加入正则化项
欠拟合的对策:
- 寻找表征能力更强的特征
- 增加特征数量
- 更好复杂更高的模型
交叉验证
K折交叉验证:训练集随机划分为K份,每次采用其中K-1份作为训练集, 另外一份作为验证集,在训练集上训练模型并用该验证集计算误差。
2. 监督学习
监督学习的数据集中每个样本由其特征向量和标记组成,其数学表达式为 S = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ( x 3 , y 3 ) , . . . ( x n , y n ) } S = \{(x_1, y_1), (x_2, y_2), (x_3, y_3), ... (x_n, y_n)\} S={(x1,y1),(x2,y2),(x3,y3),...(xn,yn)}, ( x i , y i ) (x_i, y_i) (xi,yi)表示一个训练样本, x i ∈ X x_{i}\in X xi∈X表示特征向量, y i ∈ Y y_i \in Y yi∈Y表示预测值。
监督学习具体来说就是通过优化算法,找到一个机器学习模型 f ( x ) ^ \hat{f(x)} f(x)^,尽可能使得 f ( X ) ^ \hat{f(X)} f(X)^接近 Y Y Y。
常见的监督学习模型如下,
2.1 线性回归
线性回归是找到样本和标注之间的线性关系。
根据训练样本找到最优线性函数的参数,使得模型的预测值和真实值(标记)之间误差小。
若
x
i
=
(
x
i
(
1
)
,
x
i
(
2
)
,
.
.
.
,
x
i
(
m
)
)
x_i = (x_{i}^{(1)}, x_{i}^{(2)}, ..., x_{i}^{(m)})
xi=(xi(1),xi(2),...,xi(m))表示m维特性向量,则线性模型为,
f
(
x
i
)
=
w
1
x
i
(
1
)
+
w
2
x
i
(
2
)
+
.
.
.
+
w
m
x
i
(
m
)
+
b
i
a
s
f(x_i) = w_1x_{i}^{(1)}+w_2x_{i}^{(2)}+...+w_m x_{i}^{(m)} + bias
f(xi)=w1xi(1)+w2xi(2)+...+wmxi(m)+bias
其中
w
i
,
i
=
1
,
.
.
.
,
m
w_i, i=1,...,m
wi,i=1,...,m为权重
b
i
a
s
bias
bias为偏置。优化目标函数为
(
w
∗
,
b
∗
)
=
a
r
g
m
i
n
w
,
b
(
∑
i
=
1
n
(
f
(
x
i
)
−
y
i
)
2
)
(w^*, b^*)=arg min_{w, b}( \sum_{i=1}^{n}(f(x_i)-y_i)^2)
(w∗,b∗)=argminw,b(i=1∑n(f(xi)−yi)2)
2.2 逻辑回归
逻辑回归是在线性回归的基础上,使用sigmoid函数将线性模型的预测值限制到0-1之间,形成概率值。sigmoid函数如下
s
i
g
m
o
i
d
(
x
)
=
1
1
+
e
−
x
sigmoid(x) = \frac{1}{1 + e^{-x}}
sigmoid(x)=1+e−x1
2.3 支持向量机
支持向量机是一种二分类模型,基本模型是定义在特征空间上的间隔最大的线性分类器。
基本思想:对于线性可分数据,存在多个决策边界,但是选择两类样本正中间的超平面,也就是划分平面对所有的数据样本距离最大,这样模型对噪声的扰动性最好,模型预测性能最好,如下示意图,
对于线性不可分的数据而言,假设特征空间存在超曲面划分正、负类,使用核函数,使用非线性函数将从原始空间映射到更高维度来解决。
2.4 决策树
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别
2.5 随机森林
随机森林指的是利用多棵树对样本进行训练并预测的一种分类器。
构建步骤:
- 随机选取训练数据
- 随机选取部分特征,构建决策树
- 重复上述步骤,组成随机森林
预测步骤:
- 输入一个新样本,所有决策树单独进行预测,获得多个预测结果
- 取所有预测结果中得票最多的作为最终预测。
3. 无监督学习
- 数据不需要标注
- 聚类:其思想是数据分成多个类别,在同一个类内,实体之间具有较高的相似性,在不同类内,对象之间具有较大的差异,常见的聚类算法如 K-means 聚类;
- 降维:将维度较高、计算复杂度的数据,降为维度较低、计算复杂度低,且尽可能保存信息的数据,常见的降维方法如PCA。