补充知识:
邻接矩阵
- 定义:邻接矩阵是用于表示图结构的一种矩阵。对于一个具有
n
n
n个顶点的图
G
=
(
V
,
E
)
G=(V, E)
G=(V,E),其中
V
V
V是顶点集,
E
E
E是边集,其邻接矩阵
A
=
(
a
i
j
)
A=(a_{ij})
A=(aij)是一个
n
×
n
n\times n
n×n的矩阵,通常定义如下:
- 如果图 G G G是无向图,当顶点 v i v_i vi和 v j v_j vj之间有边相连时, a i j = a j i = 1 a_{ij}=a_{ji}=1 aij=aji=1;当顶点 v i v_i vi和 v j v_j vj之间无边相连时, a i j = a j i = 0 a_{ij}=a_{ji}=0 aij=aji=0。特别地,对于顶点自身, a i i = 0 a_{ii}=0 aii=0。
- 如果图 G G G是有向图,当从顶点 v i v_i vi到 v j v_j vj有一条有向边时, a i j = 1 a_{ij}=1 aij=1;否则 a i j = 0 a_{ij}=0 aij=0。同样,对于顶点自身, a i i = 0 a_{ii}=0 aii=0。
- 如果图 G G G是带权图,当顶点 v i v_i vi和 v j v_j vj之间有边相连,且边的权值为 w i j w_{ij} wij时, a i j = w i j a_{ij}=w_{ij} aij=wij;当顶点 v i v_i vi和 v j v_j vj之间无边相连时, a i j = 0 a_{ij}=0 aij=0或者 a i j = ∞ a_{ij}=\infty aij=∞(根据具体情况而定)。
协方差矩阵
- 定义:设
X
=
(
X
1
,
X
2
,
⋯
,
X
n
)
X=(X_1, X_2, \cdots, X_n)
X=(X1,X2,⋯,Xn)是一个
n
n
n维随机向量,其协方差矩阵
Σ
\Sigma
Σ是一个
n
×
n
n\times n
n×n的矩阵,其中第
i
i
i行第
j
j
j列的元素
σ
i
j
\sigma_{ij}
σij定义为
σ
i
j
=
Cov
(
X
i
,
X
j
)
=
E
[
(
X
i
−
E
(
X
i
)
)
(
X
j
−
E
(
X
j
)
)
]
\sigma_{ij}=\text{Cov}(X_i, X_j)=E[(X_i - E(X_i))(X_j - E(X_j))]
σij=Cov(Xi,Xj)=E[(Xi−E(Xi))(Xj−E(Xj))],其中
E
(
X
i
)
E(X_i)
E(Xi)表示随机变量
X
i
X_i
Xi的期望,
Cov
(
X
i
,
X
j
)
\text{Cov}(X_i, X_j)
Cov(Xi,Xj)表示
X
i
X_i
Xi和
X
j
X_j
Xj的协方差。用矩阵形式表示为:
Σ = ( σ 11 σ 12 ⋯ σ 1 n σ 21 σ 22 ⋯ σ 2 n ⋮ ⋮ ⋱ ⋮ σ n 1 σ n 2 ⋯ σ n n ) \Sigma=\begin{pmatrix} \sigma_{11}&\sigma_{12}&\cdots&\sigma_{1n}\\ \sigma_{21}&\sigma_{22}&\cdots&\sigma_{2n}\\ \vdots&\vdots&\ddots&\vdots\\ \sigma_{n1}&\sigma_{n2}&\cdots&\sigma_{nn} \end{pmatrix} Σ= σ11σ21⋮σn1σ12σ22⋮σn2⋯⋯⋱⋯σ1nσ2n⋮σnn
由于 Cov ( X i , X j ) = Cov ( X j , X i ) \text{Cov}(X_i, X_j)=\text{Cov}(X_j, X_i) Cov(Xi,Xj)=Cov(Xj,Xi),所以协方差矩阵是一个对称矩阵。
先验概率、后验概率以及与之相关的似然度、证据因子等概念是贝叶斯统计中的重要基础,以下是对它们的详细介绍:
- 先验概率(Prior Probability)
- 定义:是在考虑新证据或数据之前,根据以往的经验、知识或假设对某个事件发生的概率所做的估计。它反映了我们对事件发生可能性的初始信念,不依赖于当前正在观察或分析的数据。
- 示例:在抛一枚均匀硬币的试验中,在抛之前我们就知道正面朝上的概率是0.5,这就是先验概率。因为我们基于对硬币的基本认识和经验,知道硬币两面出现的可能性是相等的,不需要进行实际的抛掷操作来获取这个概率。
- 后验概率(Posterior Probability)
- 定义:是在考虑了新的证据或数据之后,对某个事件发生概率的重新估计。它是通过结合先验概率和新的观测数据,利用贝叶斯定理计算得出的,反映了在有新信息的情况下我们对事件发生可能性的更新信念。
- 示例:假设一个盒子里有红、蓝两种颜色的球,我们事先不知道红球和蓝球的具体比例,只根据经验猜测红球和蓝球各占一半的可能性较大,这就是先验概率。然后我们从盒子里随机摸出一个球,发现是红球,此时我们就可以根据这个新的证据,利用贝叶斯定理来更新我们对盒子里红球比例的估计,得到的就是后验概率。
- 似然度(Likelihood)
- 定义:在统计学中,似然度是指在给定模型参数的情况下,观测到数据的概率。它是关于模型参数的函数,用于衡量在某个参数值下,观测数据出现的可能性大小。在贝叶斯统计中,似然度用于描述观测数据与假设之间的匹配程度。
- 示例:在一个抛硬币的实验中,假设硬币正面朝上的概率为p,我们进行了n次抛掷,观察到k次正面朝上。那么在给定p的情况下,观察到这一结果的似然度就是 L ( p ) = ( n k ) p k ( 1 − p ) n − k L(p)=\binom{n}{k}p^{k}(1 - p)^{n - k} L(p)=(kn)pk(1−p)n−k。如果 p = 0.6 , n = 10 , k = 7 p = 0.6,n = 10,k = 7 p=0.6,n=10,k=7,则可以计算出在这个参数值下观察到7次正面朝上的似然度。
1、关于线性回归说法
下列关于线性回归说法错误的是()正确答案C
A
在现有模型上,加入新的变量,所得到的R^2的值总会增加
- 选项A
在线性回归中, R 2 R^2 R2(判定系数)用于衡量回归模型对观测数据的拟合程度。一般情况下,在现有模型上加入新的变量,即使新变量实际上对因变量没有真正的解释能力, R 2 R^2 R2的值也总会增加或者至少保持不变,这是因为增加变量后,模型能够更好地拟合样本数据,使得回归平方和增大,而总平方和不变,从而 R 2 R^2 R2会增大。所以该选项说法正确。
B
线性回归的前提假设之一是残差必须服从独立正态分布
- 选项B
线性回归有多个前提假设,其中之一就是残差必须服从独立正态分布。这一假设非常重要,它保证了回归模型的有效性和统计推断的合理性。如果残差不服从独立正态分布,可能会导致模型的参数估计不准确,假设检验的结果不可靠等问题。所以该选项说法正确。
C
残差的方差无偏估计是SSE/(n-p)
- 选项C
在多元线性回归中,残差的方差无偏估计是 S S E / ( n − p − 1 ) SSE/(n - p - 1) SSE/(n−p−1),其中 S S E SSE SSE是残差平方和, n n n是样本数量, p p p是自变量的个数。而不是 S S E / ( n − p ) SSE/(n - p) SSE/(n−p),所以该选项说法错误。
D
自变量和残差不一定保持相互独立
- 选项D
在正确设定的线性回归模型中,自变量和残差应该是相互独立的,这是线性回归的基本假设之一。如果自变量和残差不独立,说明模型可能存在遗漏变量、测量误差等问题,会导致模型的估计结果有偏差。但在实际情况中,如果模型设定不正确等原因,自变量和残差可能不一定保持相互独立。所以该选项说法从某种角度来说是合理的,如果从严格的线性回归假设角度看,它违背了假设,但从实际可能出现的情况看,是有可能存在自变量和残差不独立的情况的。
补充知识点
判定系数 R 2 R^{2} R2的计算公式为 R 2 = S S R S S T = 1 − S S E S S T R^{2}=\frac{SSR}{SST}=1 - \frac{SSE}{SST} R2=SSTSSR=1−SSTSSE ,其中 S S R SSR SSR为回归平方和, S S E SSE SSE为残差平方和, S S T SST SST为总离差平方和。
相关概念及公式
选项A
- 总离差平方和(SST):反映因变量 y i y_i yi的观测值与其均值 y ‾ \overline{y} y之间的总波动程度,计算公式为 S S T = ∑ i = 1 n ( y i − y ‾ ) 2 SST = \sum_{i = 1}^{n}(y_{i}-\overline{y})^{2} SST=∑i=1n(yi−y)2 ,其中 n n n为样本数量, y i y_{i} yi是第 i i i个观测值, y ‾ \overline{y} y是观测值的均值。
- 回归平方和(SSR):表示回归直线 y ^ i \hat{y}_i y^i对观测值 y i y_i yi的拟合程度,即因变量 y i y_i yi的预测值 y ^ i \hat{y}_i y^i与均值 y ‾ \overline{y} y之间的差异所引起的波动,计算公式为 S S R = ∑ i = 1 n ( y ^ i − y ‾ ) 2 SSR=\sum_{i = 1}^{n}(\hat{y}_{i}-\overline{y})^{2} SSR=∑i=1n(y^i−y)2 ,其中 y ^ i \hat{y}_{i} y^i是根据回归模型预测得到的第 i i i个值。
- 残差平方和(SSE):是观测值 y i y_i yi与预测值 y ^ i \hat{y}_i y^i之间差异的平方和,反映了观测值与回归模型预测值之间的误差,计算公式为 S S E = ∑ i = 1 n ( y i − y ^ i ) 2 SSE=\sum_{i = 1}^{n}(y_{i}-\hat{y}_{i})^{2} SSE=∑i=1n(yi−y^i)2 。
计算示例
假设有一组数据点
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
5
,
y
5
)
(x_1,y_1),(x_2,y_2),\cdots,(x_5,y_5)
(x1,y1),(x2,y2),⋯,(x5,y5) ,具体数值如下:
(
1
,
2
)
(1,2)
(1,2) ,
(
2
,
3
)
(2,3)
(2,3) ,
(
3
,
4
)
(3,4)
(3,4) ,
(
4
,
5
)
(4,5)
(4,5) ,
(
5
,
6
)
(5,6)
(5,6) 。通过线性回归分析得到回归方程为
y
^
=
x
+
1
\hat{y}=x + 1
y^=x+1 。
- 首先计算 y ‾ \overline{y} y , y ‾ = 2 + 3 + 4 + 5 + 6 5 = 4 \overline{y}=\frac{2 + 3 + 4 + 5 + 6}{5}=4 y=52+3+4+5+6=4 。
- 然后计算
S
S
T
SST
SST :
S S T = ( 2 − 4 ) 2 + ( 3 − 4 ) 2 + ( 4 − 4 ) 2 + ( 5 − 4 ) 2 + ( 6 − 4 ) 2 = 10 SST=(2 - 4)^{2}+(3 - 4)^{2}+(4 - 4)^{2}+(5 - 4)^{2}+(6 - 4)^{2}=10 SST=(2−4)2+(3−4)2+(4−4)2+(5−4)2+(6−4)2=10 。 - 接着计算预测值 y ^ i \hat{y}_i y^i ,分别为 y ^ 1 = 1 + 1 = 2 \hat{y}_1=1 + 1=2 y^1=1+1=2 , y ^ 2 = 2 + 1 = 3 \hat{y}_2=2 + 1=3 y^2=2+1=3 , y ^ 3 = 3 + 1 = 4 \hat{y}_3=3 + 1=4 y^3=3+1=4 , y ^ 4 = 4 + 1 = 5 \hat{y}_4=4 + 1=5 y^4=4+1=5 , y ^ 5 = 5 + 1 = 6 \hat{y}_5=5 + 1=6 y^5=5+1=6 。
- 再计算
S
S
R
SSR
SSR :
S S R = ( 2 − 4 ) 2 + ( 3 − 4 ) 2 + ( 4 − 4 ) 2 + ( 5 − 4 ) 2 + ( 6 − 4 ) 2 = 10 SSR=(2 - 4)^{2}+(3 - 4)^{2}+(4 - 4)^{2}+(5 - 4)^{2}+(6 - 4)^{2}=10 SSR=(2−4)2+(3−4)2+(4−4)2+(5−4)2+(6−4)2=10 。 - 最后计算
S
S
E
SSE
SSE :
S S E = ( 2 − 2 ) 2 + ( 3 − 3 ) 2 + ( 4 − 4 ) 2 + ( 5 − 5 ) 2 + ( 6 − 6 ) 2 = 0 SSE=(2 - 2)^{2}+(3 - 3)^{2}+(4 - 4)^{2}+(5 - 5)^{2}+(6 - 6)^{2}=0 SSE=(2−2)2+(3−3)2+(4−4)2+(5−5)2+(6−6)2=0 。
根据公式 R 2 = S S R S S T = 1 − S S E S S T R^{2}=\frac{SSR}{SST}=1-\frac{SSE}{SST} R2=SSTSSR=1−SSTSSE ,可得 R 2 = 10 10 = 1 R^{2}=\frac{10}{10}=1 R2=1010=1 ,这表明在这个例子中,回归模型完全拟合了数据,观测值与预测值完全一致。
选项C
残差的方差无偏估计
S
S
E
/
(
n
−
p
−
1
)
SSE/(n - p - 1)
SSE/(n−p−1)的推导涉及到线性回归的基本原理和一些统计学知识,以下是详细过程:
(n是观测值的数量,p是自变量,不包含截距项)
在线性回归模型 y = X β + ϵ y = X\beta+\epsilon y=Xβ+ϵ中, y y y是 n × 1 n\times1 n×1的观测值向量, X X X是 n × p n\times p n×p的设计矩阵, β \beta β是 p × 1 p\times1 p×1的回归系数向量, ϵ \epsilon ϵ是 n × 1 n\times1 n×1的误差向量,且 ϵ ∼ N ( 0 , σ 2 I ) \epsilon\sim N(0,\sigma^{2}I) ϵ∼N(0,σ2I),即误差服从均值为 0 0 0,方差为 σ 2 \sigma^{2} σ2的正态分布。
我们用最小二乘法得到回归系数 β \beta β的估计 β ^ = ( X T X ) − 1 X T y \hat{\beta}=(X^{T}X)^{-1}X^{T}y β^=(XTX)−1XTy,进而得到拟合值 y ^ = X β ^ \hat{y}=X\hat{\beta} y^=Xβ^,残差 e = y − y ^ e = y-\hat{y} e=y−y^,残差平方和 S S E = e T e = ( y − y ^ ) T ( y − y ^ ) SSE = e^{T}e=(y - \hat{y})^{T}(y - \hat{y}) SSE=eTe=(y−y^)T(y−y^)。
可以证明 S S E = y T ( I − H ) y SSE = y^{T}(I - H)y SSE=yT(I−H)y,其中 H = X ( X T X ) − 1 X T H = X(X^{T}X)^{-1}X^{T} H=X(XTX)−1XT是帽子矩阵。
根据期望的性质 E ( S S E ) = E [ y T ( I − H ) y ] E(SSE)=E[y^{T}(I - H)y] E(SSE)=E[yT(I−H)y],因为 y = X β + ϵ y = X\beta+\epsilon y=Xβ+ϵ,所以:
E ( S S E ) = E [ ( X β + ϵ ) T ( I − H ) ( X β + ϵ ) ] = E [ β T X T ( I − H ) X β + ϵ T ( I − H ) X β + β T X T ( I − H ) ϵ + ϵ T ( I − H ) ϵ ] \begin{align*} E(SSE)&=E[(X\beta+\epsilon)^{T}(I - H)(X\beta+\epsilon)]\\ &=E[\beta^{T}X^{T}(I - H)X\beta+\epsilon^{T}(I - H)X\beta+\beta^{T}X^{T}(I - H)\epsilon+\epsilon^{T}(I - H)\epsilon] \end{align*} E(SSE)=E[(Xβ+ϵ)T(I−H)(Xβ+ϵ)]=E[βTXT(I−H)Xβ+ϵT(I−H)Xβ+βTXT(I−H)ϵ+ϵT(I−H)ϵ]
由于 H H H是幂等矩阵,即 H 2 = H H^{2}=H H2=H,且 H X = X HX = X HX=X,所以 X T ( I − H ) X = 0 X^{T}(I - H)X = 0 XT(I−H)X=0, E ( ϵ T ( I − H ) X β ) = 0 E(\epsilon^{T}(I - H)X\beta)=0 E(ϵT(I−H)Xβ)=0, E ( β T X T ( I − H ) ϵ ) = 0 E(\beta^{T}X^{T}(I - H)\epsilon)=0 E(βTXT(I−H)ϵ)=0。
又因为 E ( ϵ T ( I − H ) ϵ ) = σ 2 t r ( I − H ) E(\epsilon^{T}(I - H)\epsilon)=\sigma^{2}tr(I - H) E(ϵT(I−H)ϵ)=σ2tr(I−H),其中 t r ( ⋅ ) tr(\cdot) tr(⋅)表示矩阵的迹,而 t r ( I − H ) = n − t r ( H ) = n − p tr(I - H)=n - tr(H)=n - p tr(I−H)=n−tr(H)=n−p,所以 E ( S S E ) = σ 2 ( n − p ) E(SSE)=\sigma^{2}(n - p) E(SSE)=σ2(n−p)。
为了得到方差 σ 2 \sigma^{2} σ2的无偏估计,我们令 σ ^ 2 = S S E n − p − 1 \hat{\sigma}^{2}=\frac{SSE}{n - p - 1} σ^2=n−p−1SSE,此时 E ( σ ^ 2 ) = σ 2 E(\hat{\sigma}^{2})=\sigma^{2} E(σ^2)=σ2,即 S S E / ( n − p − 1 ) SSE/(n - p - 1) SSE/(n−p−1)是残差方差 σ 2 \sigma^{2} σ2的无偏估计。
2、关于线性回归的描述
关于线性回归的描述,以下正确的有: 正确答案:BCE
A
基本假设包括随机干扰项是均值为0,方差为1的标准正态分布
B
基本假设包括随机干扰项是均值为0的同方差正态分布
C
在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D
在违背基本假设时,模型不再可以估计
E
可以用DW检验残差是否存在序列相关性
F
多重共线性会使得参数估计值方差减小
补充知识
一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。
杜宾-瓦特森(DW)检验,统计分析中常用的一种检验序列一阶自相关最常用的方法。经常用于检验线性回归模型中残差是否存在序列相关性。它通过计算 DW 统计量,并与相应的临界值进行比较,来判断残差序列是否存在自相关
多重共线性是指线性回归模型中的自变量之间存在高度的线性相关关系。当存在多重共线性时,参数估计值的方差会增大,而不是减小。这是因为多重共线性使得自变量之间的信息重叠,导致估计量对数据的微小变化非常敏感,从而使得估计值的方差增大,估计的稳定性变差。
3、评论分类模型好坏的指标
评论分类模型好坏的指标是()A
A
准确率与召回率
B
准确率与置信度
C
准确率与提升度
D
置信度与提升度
补充知识
准确率定义:准确率是指在所有的预测结果中,正确预测的比例。
召回率定义:召回率也称为查全率,是指在所有实际为正类的样本中,被模型正确预测为正类的比例。
下列哪些方法可以用来对高维数据进行降维: 正确答案:ABCDEF
A
LASSO
选项A LASSO(Least Absolute Shrinkage and Selection Operator,最小绝对收缩和选择算子)
LASSO是一种线性回归的正则化方法,它在损失函数中加入了L1正则项。L1正则项具有使某些回归系数变为零的特性,这意味着它可以自动进行特征选择,将不重要的特征系数置为零,从而达到降维的目的。通过去除这些系数为零的特征,数据的维度得以降低。所以LASSO可以用于高维数据降维。
B
主成分分析法
选项B:主成分分析法(Principal Component Analysis,PCA)
PCA是一种经典的无监督降维方法。它通过对原始数据的协方差矩阵进行特征值分解,找到数据的主成分(即数据方差最大的方向)。然后选择方差较大的前k个主成分来表示原始数据,从而将高维数据投影到低维空间中,实现数据降维。PCA在保留数据主要信息的同时,大大减少了数据的维度。所以主成分分析法可用于高维数据降维。
C
聚类分析
选项C:聚类分析
聚类分析的主要目的是将数据集中的样本按照相似性划分为不同的簇,使得同一簇内的样本相似度高,不同簇之间的样本相似度低。虽然在聚类过程中可能会对数据进行一些预处理,但聚类分析本身并不是专门用于降维的方法,它更侧重于发现数据的内在结构和模式,而不是减少数据的维度。所以聚类分析通常不用于高维数据降维。
但是如果问的是可不可以的话,硬要说还是可以的。
D
小波分析法
选项D:小波分析法
小波分析是一种时频分析方法,它具有多分辨率分析的特点。在处理高维数据时,小波变换可以将数据分解为不同尺度和频率的分量,通过保留主要的分量并丢弃次要的分量,可以实现数据的压缩和降维。小波分析法在信号处理、图像处理等领域中常被用于高维数据的降维处理。所以小波分析法可用于高维数据降维。
E
线性判别法
选项E:线性判别法(Linear Discriminant Analysis,LDA)
LDA是一种有监督的降维方法。它的目标是找到一个投影方向,使得不同类别的数据在投影后尽可能分开,同一类别的数据在投影后尽可能聚集。通过将高维数据投影到低维空间中,LDA不仅实现了数据降维,还考虑了数据的类别信息,有助于提高分类性能。所以线性判别法可用于高维数据降维。
F
拉普拉斯特征映射本题可根据各方法的原理和用途,判断其是否可用于高维数据降维。
选项F:拉普拉斯特征映射(Laplacian Eigenmaps)
拉普拉斯特征映射是一种基于图的流形学习方法,属于非线性降维技术。它通过构建数据点之间的邻接图,利用图的拉普拉斯矩阵的特征向量来找到数据的低维嵌入。该方法能够捕捉数据的局部几何结构,将高维数据映射到低维空间中,从而实现降维。所以拉普拉斯特征映射可用于高维数据降维。
4、关于主分量说法
已知一组数据的协方差矩阵P,下面关于主分量说法错误的是( )正确答案C
A
主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B
在经主分量分解后,协方差矩阵成为对角矩阵
C
主分量分析就是K-L变换
D
主分量是通过求协方差矩阵的特征值得到
- A:正确
PCA的目标是找到一组正交基(主成分),使得在保留相同数量分量的条件下,截尾误差(即数据重建的均方误差)最小。 - B:正确
PCA将原始数据的协方差矩阵转换为对角矩阵,对角线上的元素是特征值,表示各主成分的方差。 - C:错误
K-L变换(Karhunen-Loève变换) 是一种基于数据协方差矩阵的特征分解的变换方法,通常用于信号处理和随机过程分析。虽然PCA和K-L变换在数学上有相似之处(都涉及协方差矩阵的特征分解),但它们并不完全相同。
PCA更侧重于数据降维和方差最大化,而K-L变换更侧重于信号的最优表示。因此,不能简单地说PCA就是K-L变换。 - D:正确
主分量是通过对协方差矩阵进行特征值分解得到的,特征值对应的特征向量就是主分量
5、输入图片大小与输出特征图大小
输入图片大小为200×200,依次经过一层卷积(kernel size 5×5,padding 1,stride 2),pooling(kernel size 3×3,padding 0,stride 1),又一层卷积(kernel size 3×3,padding 1,stride 1)之后,输出特征图大小为:
输出尺寸=(输入尺寸-filter尺寸+2*padding)/stride+1
答案为97。
6、可以不对特征做归一化处理
以下哪些机器学习算法可以不对特征做归一化处理:()
A
随机森林
B
逻辑回归
C
SVM
D
GBDT
正确答案:AD
- A. 随机森林:随机森林是基于决策树的集成学习算法。决策树的分裂规则主要基于特征的取值比较和信息增益等指标,并不依赖于特征的具体数值大小和尺度。例如,在判断一个样本是属于苹果还是橙子时,可能依据颜色是红色还是橙色,形状是圆形还是椭圆形等特征进行划分,这些特征的取值本身没有统一的量纲要求,所以随机森林通常不需要对特征进行归一化处理。
- B. 逻辑回归:逻辑回归通常需要进行特征归一化。因为逻辑回归中使用梯度下降等优化算法来求解模型参数,特征尺度不一致会导致梯度下降的收敛速度变慢,甚至可能影响最终结果的准确性。例如,一个特征取值范围在0-1000,另一个特征取值范围在0-1,那么取值大的特征可能会在模型训练中占据主导地位,使得模型难以学习到其他特征的重要性。
- C. SVM:支持向量机也通常需要对特征进行归一化。SVM的目标是找到一个最优的超平面来分隔不同类别的数据,特征归一化可以使得不同特征在距离计算等方面具有相同的权重和尺度,避免某些特征因为取值范围大而对结果产生过大影响。比如在二维平面上用SVM分隔两类数据点,如果一个特征的尺度很大,会使得数据点在该维度上的分布过于分散,影响超平面的确定。
- D. GBDT:GBDT即梯度提升决策树,和随机森林类似,也是基于决策树的算法。决策树的构建过程主要关注特征的分裂点选择和信息增益等,对特征的尺度不敏感,不需要依赖特征的归一化来进行模型训练和预测。
在机器学习中,特征是指用于描述数据对象的属性或变量,它是对数据进行量化和分析的基础。例如在预测房价的问题中,房子的面积、房间数量、房龄等都可以作为特征。
需要进行特征归一化的算法
- 基于距离度量的算法
- K近邻算法(KNN):该算法通过计算样本之间的距离来确定最近的邻居,进而进行分类或回归。如果特征的尺度不同,那么取值范围大的特征会在距离计算中占据主导地位,导致距离计算不准确,影响分类或回归的结果。
- 高斯混合模型(GMM):在计算样本属于各个高斯分量的概率时,涉及到对特征的距离计算等操作,特征尺度不一致会影响概率计算的准确性,进而影响模型的聚类效果。
- 基于梯度下降的算法
- 线性回归:使用梯度下降法求解模型参数时,特征尺度不同会导致梯度下降的方向和速度受到影响,使得收敛速度变慢,甚至可能无法收敛到最优解。
- 神经网络:在神经网络的训练过程中,归一化可以使数据分布更加稳定,有助于加速模型的收敛,提高训练效率,还能减少梯度消失或爆炸的问题,使模型更容易学习到数据中的特征和规律。
通常不需要进行特征归一化的算法
- 基于树的算法
- 决策树:其分裂节点的依据是特征的取值和信息增益等,并不依赖于特征的具体数值大小和尺度,所以对特征归一化的需求不强烈。
- 极端随机树(Extra Trees):作为一种基于决策树的集成学习算法,同样是在树的构建和分裂过程中主要关注特征的取值比较和信息增益等,对特征尺度不敏感。
- 基于概率的算法
- 朴素贝叶斯:基于特征的概率分布来进行分类,主要关注特征的出现频率等概率信息,而不是特征的具体数值大小,所以一般不需要归一化。
- 隐马尔可夫模型(HMM):在处理序列数据时,主要基于状态转移概率和观测概率等进行计算,对特征的数值尺度没有严格要求。
特征归一化的作用
- 提升模型收敛速度:在使用梯度下降等优化算法时,归一化可以使各个特征对目标函数的影响程度大致相同,让梯度下降的方向更加合理,从而加快收敛速度,减少训练时间。
- 提高模型精度:避免某些特征因为取值范围过大而主导模型的训练过程,使模型能够更准确地学习到各个特征与目标之间的关系,提高模型的泛化能力和预测精度。
- 增强模型稳定性:使数据分布更加稳定,减少数据的波动性对模型的影响,尤其是在数据存在异常值或噪声时,归一化可以降低这些因素对模型的干扰,提高模型的稳定性和可靠性。
7、关于随机森林和Adaboost说法
下列关于随机森林和Adaboost说法正确的是( ) 正确答案:ACD
A
和adaboost相比,随机森林对错误和离群点更鲁棒
B
随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性
C
随机森林对每次划分所考虑的属性数很偏感
D
Adaboost初始时每个训练元组被赋予相等的权重
-
A. 和Adaboost相比,随机森林对错误和离群点更鲁棒:随机森林中,每棵树的构建相对独立,且是基于自助采样法(bootstrap sampling)从原始训练集有放回地抽取样本构建的,个别错误数据点或离群点对单棵树的影响有限,并且最终结果是综合多棵树的预测结果,具有一定的平均化和抗干扰作用。而Adaboost对错误和离群点比较敏感,因为它在迭代过程中会不断加大被错分样本的权重,异常值可能会对后续的弱分类器产生较大影响,导致过拟合等问题。所以该选项正确。
-
B. 随机森林准确率不依赖于个体分类器的实例和他们之间的依赖性:随机森林的准确率与个体分类器的性能以及它们之间的相关性密切相关。如果个体分类器性能好且相互之间独立性较强,那么随机森林能够综合不同分类器的优势,取得较好的准确率;但如果个体分类器性能差或者它们之间相关性过高,就会导致模型的泛化能力下降,准确率受到影响。所以该选项错误。
-
C. 随机森林对每次划分所考虑的属性数很敏感:“偏感” 应该是 “敏感” 的误写。在机器学习中,说随机森林对每次划分所考虑的属性数很 “敏感”,意思应该是每次划分时所考虑的属性数这个参数对随机森林模型的性能、效果等有着较为显著的影响。在随机森林中,每次划分时考虑的属性数是一个重要的超参数。
- 如果选择的属性数过少,可能导致决策树无法充分利用数据中的信息,使得每棵树的分类能力较弱,从而影响随机森林的整体性能。
- 如果选择的属性数过多,又可能使每棵树过于相似,降低了模型的多样性,也会影响随机森林的效果。因此,随机森林对每次划分所考虑的属性数是比较敏感的,该选项正确。
- (争议点)但是随机森林在构建决策树时,每次划分考虑的属性数一般是随机选择的一个子集,通常来说,这个子集数量在合理的范围内即可,随机森林每次都划分其实有一定的鲁棒性。 (哎,答案给的ACD,我就这么分析了,大家知道就行。)
-
D. Adaboost初始时每个训练元组被赋予相等的权重:Adaboost算法在初始化时,会给所有训练样本赋予相同的权重,通常为(1/N)((N)为训练样本总数)。然后在每一轮迭代中,根据前一轮弱分类器的分类结果,调整样本的权重,使得被错误分类的样本权重增加,正确分类的样本权重降低,从而引导后续的弱分类器更加关注那些难以分类的样本。所以该选项正确。
Adaboost算法,即自适应提升算法(Adaptive Boosting),是一种集成学习算法,用于提高分类器的性能。
基本思想:通过多个弱分类器的组合,形成一个强分类器。
在每次迭代中,会根据样本的分类情况调整样本的权重。被错误分类的样本权重增加,正确分类的样本权重降低。然后基于调整后的样本权重训练新的弱分类器。
最终将多个弱分类器组合时,每个弱分类器具有不同的权重,其权重取决于该弱分类器的分类准确率。
优点:不容易出现过拟合、对噪声数据和异常值具有较好的鲁棒性等。
数学公式表示
假设我们有数据集
D
=
{
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
N
,
y
N
)
}
D = \{(x_1, y_1), (x_2, y_2), \cdots, (x_N, y_N)\}
D={(x1,y1),(x2,y2),⋯,(xN,yN)} ,其中
x
i
x_i
xi 是输入特征,
y
i
∈
{
−
1
,
1
}
y_i \in \{-1, 1\}
yi∈{−1,1} 是类别标签。
在第 m m m 次迭代中,样本的权重为 w m , i w_{m, i} wm,i ,弱分类器为 h m h_m hm ,其错误率为 ϵ m = ∑ i = 1 N w m , i I ( h m ( x i ) ≠ y i ) \epsilon_m = \sum_{i=1}^{N} w_{m, i} I(h_m(x_i) \neq y_i) ϵm=∑i=1Nwm,iI(hm(xi)=yi) ,其中 I I I 是指示函数。
则弱分类器 h m h_m hm 的权重为 α m = 1 2 ln 1 − ϵ m ϵ m \alpha_m = \frac{1}{2} \ln \frac{1 - \epsilon_m}{\epsilon_m} αm=21lnϵm1−ϵm 。
更新样本权重: w m + 1 , i = w m , i exp ( − α m y i h m ( x i ) ) Z m w_{m + 1, i} = \frac{w_{m, i} \exp(-\alpha_m y_i h_m(x_i))}{Z_m} wm+1,i=Zmwm,iexp(−αmyihm(xi)) ,其中 Z m Z_m Zm 是归一化常数,确保新的权重之和为 1 。
最终的强分类器为: H ( x ) = s i g n ( ∑ m = 1 M α m h m ( x ) ) H(x) = sign(\sum_{m = 1}^{M} \alpha_m h_m(x)) H(x)=sign(∑m=1Mαmhm(x))
8、属于判别式模型
以下几种模型方法属于判别式模型的有 正确答案2,3
1)混合高斯模型
2)条件随机场模型
3)区分度训练
4)隐马尔科夫模型
判别式模型(Discriminative Model)直接对条件概率
P
(
y
∣
x
)
P(y|x)
P(y∣x) 进行建模,它学习的是不同输入
x
x
x 与输出
y
y
y 之间的边界。常见的判别式模型包括:线性回归、逻辑回归、支持向量机(SVM)、决策树、随机森林、、多层感知机(MLP)、传统神经网络、邻近算法(K邻近、最近邻)条件随机场(CRF)、
提升算法(Boosting Algorithm、常见的提升算法有 AdaBoost(Adaptive Boosting,自适应提升)、GBDT(Gradient Boosting Decision Tree,梯度提升决策树)。
条件概率分布(Conditional Probability Distribution)是在给定某些条件下,某个随机变量的概率分布。
例如,条件概率分布 P ( Y ∣ X = x ) P(Y|X=x) P(Y∣X=x) 表示在已知随机变量 X X X 取值为 x x x 的条件下,随机变量 Y Y Y 的概率分布。
用公式表示,条件概率 P ( Y ∣ X = x ) = P ( X = x , Y ) P ( X = x ) P(Y|X=x) = \frac{P(X=x, Y)}{P(X=x)} P(Y∣X=x)=P(X=x)P(X=x,Y) 。
生成式模型(Generative Model)对联合概率分布
P
(
x
,
y
)
P(x,y)
P(x,y) 进行建模。有联合概率分布之后,可以用贝叶斯定理得到条件分布概率
P
(
y
∣
x
)
P(y|x)
P(y∣x),即上述判别式模型的那个概率。但是反过来却不行,条件概率无法得到联合概率分布。
常见的生成式模型有朴素贝叶斯、隐马尔可夫模型、马尔可夫随机场、多项式混合模型、高斯模型、高斯混合模型、高斯分布、Sigmoidal Belief Networks、贝叶斯网络、潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)
联合概率分布(Joint Probability Distribution)表示两个或多个随机变量同时取值的概率分布。
例如,假设有两个随机变量 X X X 和 Y Y Y ,联合概率分布 P ( X = x , Y = y ) P(X=x, Y=y) P(X=x,Y=y) 表示 X X X 取值为 x x x 且 Y Y Y 取值为 y y y 的概率。
贝叶斯定理的数学表达式为: P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
从联合概率分布推导条件概率分布:
- 联合概率 P ( A , B ) P(A,B) P(A,B)表示事件 A A A和事件 B B B同时发生的概率。
- 条件概率 P ( A ∣ B ) P(A|B) P(A∣B)定义为 P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B)=\frac{P(A,B)}{P(B)} P(A∣B)=P(B)P(A,B)( P ( B ) > 0 P(B)>0 P(B)>0), P ( B ∣ A ) = P ( A , B ) P ( A ) P(B|A)=\frac{P(A,B)}{P(A)} P(B∣A)=P(A)P(A,B)( P ( A ) > 0 P(A)>0 P(A)>0),变形可得 P ( A , B ) = P ( B ∣ A ) P ( A ) P(A,B)=P(B|A)P(A) P(A,B)=P(B∣A)P(A)。
- 将
P
(
A
,
B
)
=
P
(
B
∣
A
)
P
(
A
)
P(A,B)=P(B|A)P(A)
P(A,B)=P(B∣A)P(A)代入
P
(
A
∣
B
)
=
P
(
A
,
B
)
P
(
B
)
P(A|B)=\frac{P(A,B)}{P(B)}
P(A∣B)=P(B)P(A,B),就得到贝叶斯定理
P
(
A
∣
B
)
=
P
(
B
∣
A
)
P
(
A
)
P
(
B
)
P(A|B)=\frac{P(B|A)P(A)}{P(B)}
P(A∣B)=P(B)P(B∣A)P(A)
通过这样的推导,贝叶斯定理就建立起了联合概率 P ( A ∩ B ) P(A\cap B) P(A∩B)与条件概率 P ( A ∣ B ) P(A|B) P(A∣B)、 P ( B ∣ A ) P(B|A) P(B∣A)之间的联系,实现了从联合概率分布到条件概率分布的转换。
9、解决overfitting问题
以下描述不是解决overfitting问题的是( ) 正确答案:A
A
SVM中从多项式核转向使用高斯核
B
使用regularization
C
拿更多的数据
D
数据清洗,去掉一些noise
常见的 SVM(支持向量机)核函数包括:
- 线性核函数(Linear Kernel): K ( x i , x j ) = x i T x j K(x_i, x_j) = x_i^T x_j K(xi,xj)=xiTxj 。适用于数据本身线性可分或近似线性可分的情况。
- 多项式核函数(Polynomial Kernel): K ( x i , x j ) = ( γ x i T x j + r ) d K(x_i, x_j) = (\gamma x_i^T x_j + r)^d K(xi,xj)=(γxiTxj+r)d ,其中 γ \gamma γ 、 r r r 和 d d d 为参数。可以处理非线性情况,通过调整参数可以控制模型的复杂度。
- 高斯核函数(Gaussian Kernel 或 RBF 核函数,Radial Basis Function Kernel): K ( x i , x j ) = exp ( − γ ∣ ∣ x i − x j ∣ ∣ 2 ) K(x_i, x_j) = \exp(-\gamma ||x_i - x_j||^2) K(xi,xj)=exp(−γ∣∣xi−xj∣∣2) ,其中 γ \gamma γ 为参数。对于数据分布较复杂的情况有较好的效果。
- Sigmoid 核函数: K ( x i , x j ) = tanh ( γ x i T x j + r ) K(x_i, x_j) = \tanh(\gamma x_i^T x_j + r) K(xi,xj)=tanh(γxiTxj+r) 。
在已经过拟合的情况下,从多项式核转变为高斯核不一定能直接解决过拟合问题,反而可能因为高斯核的灵活性而加剧过拟合。
但是,泛泛的讲:从多项式核转变为高斯核,不一定必然导致更容易过拟合,这取决于数据的特性和核函数参数的设置。
高斯核函数具有较强的灵活性和拟合能力,因为它可以将数据映射到无限维空间。如果参数设置不当,例如 值过大,可能会导致模型对训练数据过度拟合,对新数据的泛化能力变差。
然而,如果数据本身的分布较为复杂,且能够合理地调整高斯核的参数,它可能会比多项式核更好地捕捉数据中的模式,而不一定过拟合。
10、依据规划质量的某种度量对规划排序的分类器
在某些规划的分类器中,依据规划质量的某种度量对规划排序,保证每一个测试记录都是由覆盖它的‘最好的’规格来分类,这种方案称为() 正确答案:C
A
基于规格的排序方案
B
基于度量的排序方案
C
基于规则的排序方案
D
基于类的排序方案
基于规则的排序方案
在基于规则的排序方案中,依据规则质量的某种度量(比如整体分类正确率等,具体的度量方式在不同的基于规则分类算法中会有所不同)对规则排序,这种排序方式确保每一个测试记录都由覆盖它的“最好的”规则来分类,这种分类方式能使得分类器的某种性能(即选择的规则质量的某种度量)达到最好,但是对于秩较低的规则,则不容易解释,因为它必须不满足秩高于它的规则中的至少一个(属性,值)。
基于类的排序方案
在基于类的排序方案中,属于同一个类的规则放在一起,然后按照对“类”排序的方式对这些规则进行排序,同一个类中的规则相互间的顺序并不重要。这种排序方式使得每一条规则解释起来相对容易,但是可能存在质量较差的规则(即不能正确决定记录的类型)由于其所属类的秩较高,导致其秩也较高,造成误分类。
具体可以看这两篇博客:数据挖掘:基于规则的分类器、基于规则的分类计数
11、隐马尔可夫模型三个基本问题
隐马尔可夫模型三个基本问题以及相应的算法说法正确的是( )正确答案:ABC
A
评估—前向后向算法
B
解码—维特比算法
C
学习—Baum-Welch算法
D
学习—前向后向算法
隐马尔可夫模型的三个基本问题及对应算法
- 评估问题:在给定隐马尔可夫模型参数(初始状态概率向量π、状态转移概率矩阵A和观测概率矩阵B )的情况下,计算某个特定观测序列出现的概率。解决该问题的算法是前向后向算法。前向算法从前往后计算在各个时刻处于不同状态且产生部分观测序列的概率;后向算法从后往前计算在各个时刻处于不同状态且产生后续观测序列的概率。
- 解码问题:给定隐马尔可夫模型参数和一个观测序列,找出最有可能产生该观测序列的状态序列。维特比算法解决的就是解码问题,它通过动态规划的方法,在每个时刻记录下当前状态下的最优路径,最终找到产生观测序列的最可能状态序列。
- 学习问题:根据已知的观测序列,估计隐马尔可夫模型的参数(A、B、π),使得该观测序列出现的概率最大。Baum - Welch算法(是一种基于EM迭代的无监督训练方法)用于解决学习问题,通过不断迭代更新模型参数来提高模型对观测序列的拟合程度。
对各选项的分析
- A选项:评估—前向后向算法,说法正确。
- B选项:解码—维特比算法,说法正确。
- C选项:学习—Baum - Welch算法,说法正确。
- D选项:前向后向算法主要用于评估问题,学习问题一般用Baum - Welch算法,该项说法错误。
综上,答案是ABC
12、关于 logit 回归和 SVM
关于 logit 回归和 SVM 不正确的是()正确答案:A
A
Logit回归目标函数是最小化后验概率
B
Logit回归可以用于预测事件发生概率的大小
C
SVM目标是结构风险最小化
D
SVM可以有效避免模型过拟合
Logit 回归,也称为逻辑回归(Logistic Regression)应该是最大化似然函数。
SVM 可以有效避免模型过拟合。SVM 通过最大化分类间隔等方式,能够在一定程度上控制模型的复杂度,减少过拟合的风险。
13、关于 XGBoost 的说法
下列关于 XGBoost 的说法,错误的是() 正确答案:A
A
XGBoost 支持单颗树粒度的并行
B
XGBoost 支持特征抽样
C
XGBoost 在代价函数里加入了正则项
D
XGBoost 支持对缺失值的自动处理
XGBoost 在特征粒度上支持并行,A 说法错误;XGBoost 支持列抽样,即特征抽样,B 说法正确;XGBoost 在代价函数里加入了正则项用于控制模型的复杂度,C 说法正确;XGBoost 对于特征的值有缺失的样本,可以自动学习出它的分裂方向,D 说法正确。因此选择 A 选项。
XGBoost是eXtreme Gradient Boosting的缩写,是一种先进的基于梯度提升框架的机器学习算法.
算法原理
- 基础原理:XGBoost基于梯度提升决策树(GBDT)算法框架,其核心思想是通过不断地添加新的决策树来逐步纠正前面模型的错误,从而构建一个强大的集成模型。具体来说,它每次在训练新树时,都是在现有模型的基础上,根据损失函数的梯度方向来训练新的树,使得新树能够最大程度地减少损失函数的值。
- 损失函数:XGBoost使用了二阶泰勒展开来近似损失函数,这样不仅考虑了一阶导数(梯度)信息,还利用了二阶导数(海森矩阵)信息,能更准确地逼近损失函数的真实值,从而使模型的训练更加高效和准确。一般的损失函数形式为 L ( θ ) = ∑ i l ( y i , y ^ i ) + Ω ( f ) L(\theta)=\sum_{i}l(y_i,\hat{y}_i)+\Omega(f) L(θ)=∑il(yi,y^i)+Ω(f),其中 l ( y i , y ^ i ) l(y_i,\hat{y}_i) l(yi,y^i)是衡量预测值 y ^ i \hat{y}_i y^i与真实值 y i y_i yi之间差异的损失项, Ω ( f ) \Omega(f) Ω(f)是正则化项,用于控制模型的复杂度,防止过拟合。
- 正则化:XGBoost在损失函数中加入了正则化项,如L1和L2正则化,对树的结构和叶子节点的权重进行约束。正则化可以有效控制模型的复杂度,降低模型的方差,提高模型的泛化能力,避免过拟合现象的发生。
算法特点
- 高效性:XGBoost采用了多种优化技术来提高训练效率。例如,它支持并行计算,可以在多个CPU核心上同时进行特征分裂的计算,大大缩短了训练时间。同时,它还使用了缓存优化、数据分块等技术,减少了数据读取和计算的时间开销。
- 可扩展性:能够处理大规模的数据集,无论是数据量还是特征维度都有很好的扩展性。它可以在分布式环境下运行,利用多台机器的计算资源进行训练,适用于大数据场景。
- 鲁棒性:对数据中的噪声和异常值有较好的鲁棒性。由于采用了集成学习的方式,多个决策树的组合可以在一定程度上抵消噪声和异常值的影响,使得模型更加稳定和可靠。
- 灵活性:提供了丰富的参数选项,可以根据不同的数据集和任务进行灵活调整。用户可以根据具体需求选择不同的损失函数、正则化参数、树的结构等,以优化模型的性能。
14、数据离散化方法
数据转换和离散化即建立一种函数映射,通过映射更换给定的属性值为一个新的表示方法。其中数据离散化主要针对只适用离散数据的挖掘方法,以下不属于离散化方法的是()正确答案 B
A
等宽法
B
Z-得分规范化
C
等频法
D
聚类法
- A. 等宽法:是一种典型的数据离散化方法。它将数据的取值范围划分为若干个等宽度的区间,每个区间对应一个离散值,属于离散化方法。
- B. Z -得分规范化:也叫标准差标准化,是一种数据标准化方法,其计算公式为 x ∗ = x − μ σ x^{*}=\frac{x - \mu}{\sigma} x∗=σx−μ,其中 x x x是原始数据, μ \mu μ是均值, σ \sigma σ是标准差。它的作用是将数据转换为均值为0,标准差为1的标准正态分布数据,主要用于对数据进行标准化处理,而不是将连续数据转换为离散数据,不属于离散化方法。
- C. 等频法:也是数据离散化的常用方法。它是使每个区间内的数据点数量大致相等,将数据划分到不同的区间,实现数据离散化。
- D. 聚类法:可以根据数据的相似性将数据划分为不同的类簇,每个类簇可以看作一个离散的类别,是一种离散化方法。
15、机器学习中做特征选择
机器学习中做特征选择时,可能用到的方法有?正确答案:ABCD
A
卡方
B
信息增益
C
平均互信息
D
期望交叉熵
- 卡方
- 原理:卡方检验用于衡量观测值与理论值之间的差异程度。在特征提取中,通过计算特征与类别之间的卡方值,来判断特征与类别是否相互独立。若卡方值较大,说明特征与类别之间存在较强的关联,该特征对分类有较大的贡献。
- 应用场景:在文本分类、医学数据分析等领域,用于筛选与目标类别相关性强的特征,比如在文本情感分类中,筛选出与积极或消极情感关联紧密的词汇作为特征。
- 信息增益
- 原理:基于信息论,信息增益表示在已知某个特征的情况下,对类别信息的不确定性减少的程度。通过计算每个特征的信息增益,选择信息增益大的特征作为关键特征,这些特征能够很好地对数据进行分类。
- 应用场景:常用于决策树算法的特征选择,以及文本分类、数据挖掘等任务中,如在垃圾邮件分类中,通过信息增益找出能有效区分垃圾邮件和正常邮件的词汇或短语特征。
- 平均互信息
- 原理:平均互信息用于衡量两个随机变量之间的相互依赖程度。在特征提取中,计算特征与类别之间的平均互信息,反映了特征能够为类别提供的信息量,平均互信息越大,特征与类别之间的相关性越强。
- 应用场景:在自然语言处理的文本分类、信息检索等领域,用于评估特征与目标之间的关联程度,以选择合适的特征,比如在新闻分类中,确定哪些词语特征与新闻类别具有较高的平均互信息。
- 期望交叉熵
- 原理:交叉熵用于衡量两个概率分布之间的差异。在特征提取中,期望交叉熵可以用来衡量在给定特征下,预测类别分布与真实类别分布之间的差异,通过最小化期望交叉熵来选择能够使预测分布与真实分布最接近的特征。
- 应用场景:在机器学习的分类任务、尤其是在深度学习的模型训练中,作为特征选择和模型优化的重要指标,帮助选择对分类最有价值的特征,例如在图像分类中,通过期望交叉熵选择对区分不同图像类别最有效的图像特征。
卡方值(
χ
2
χ^{2}
χ2)是用于衡量两个分类变量之间独立性或关联性的统计量,在统计学的假设检验、特征选择等领域应用广泛。
基本公式
χ
2
=
∑
i
=
1
r
∑
j
=
1
c
(
O
i
j
−
E
i
j
)
2
E
i
j
χ^{2}=\sum_{i = 1}^{r}\sum_{j = 1}^{c}\frac{(O_{ij}-E_{ij})^{2}}{E_{ij}}
χ2=i=1∑rj=1∑cEij(Oij−Eij)2 其中:
- r r r是列联表的行数。
- c c c是列联表的列数。
- O i j O_{ij} Oij是第 i i i行第 j j j列的实际观测频数。
- E i j E_{ij} Eij是第 i i i行第 j j j列的理论期望频数, E i j = n i . n . j n E_{ij}=\frac{n_{i.}n_{.j}}{n} Eij=nni.n.j, n i . n_{i.} ni.是第 i i i行的合计频数, n . j n_{.j} n.j是第 j j j列的合计频数, n n n是总频数。
计算步骤 以一个简单的
2
×
2
2\times2
2×2列联表为例,
假设有两个分类变量
A
A
A和
B
B
B,
A
A
A有两个类别
A
1
A_1
A1、
A
2
A_2
A2,
B
B
B有两个类别
B
1
B_1
B1、
B
2
B_2
B2,观测数据如下:
B 1 B_1 B1 | B 2 B_2 B2 | 行合计 | |
---|---|---|---|
A 1 A_1 A1 | a a a | b b b | a + b a + b a+b |
A 2 A_2 A2 | c c c | d d d | c + d c + d c+d |
列合计 | a + c a + c a+c | b + d b + d b+d | n = a + b + c + d n=a + b + c + d n=a+b+c+d |
- 计算理论期望频数:
- E 11 = ( a + b ) ( a + c ) n E_{11}=\frac{(a + b)(a + c)}{n} E11=n(a+b)(a+c)
- E 12 = ( a + b ) ( b + d ) n E_{12}=\frac{(a + b)(b + d)}{n} E12=n(a+b)(b+d)
- E 21 = ( c + d ) ( a + c ) n E_{21}=\frac{(c + d)(a + c)}{n} E21=n(c+d)(a+c)
- E 22 = ( c + d ) ( b + d ) n E_{22}=\frac{(c + d)(b + d)}{n} E22=n(c+d)(b+d)
- 计算卡方值: χ 2 = ( a − E 11 ) 2 E 11 + ( b − E 12 ) 2 E 12 + ( c − E 21 ) 2 E 21 + ( d − E 22 ) 2 E 22 χ^{2}=\frac{(a - E_{11})^{2}}{E_{11}}+\frac{(b - E_{12})^{2}}{E_{12}}+\frac{(c - E_{21})^{2}}{E_{21}}+\frac{(d - E_{22})^{2}}{E_{22}} χ2=E11(a−E11)2+E12(b−E12)2+E21(c−E21)2+E22(d−E22)2
应用举例
在医学研究中,研究某种药物对疾病治疗效果的影响。将患者分为服用药物组和未服用药物组,观察疾病治愈情况,得到如下数据:
治愈 | 未治愈 | 行合计 | |
---|---|---|---|
服用药物 | 30 | 10 | 40 |
未服用药物 | 20 | 30 | 50 |
列合计 | 50 | 40 | 90 |
首先计算理论期望频数:
- E 11 = 40 × 50 90 ≈ 22.22 E_{11}=\frac{40\times50}{90}\approx22.22 E11=9040×50≈22.22
- E 12 = 40 × 40 90 ≈ 17.78 E_{12}=\frac{40\times40}{90}\approx17.78 E12=9040×40≈17.78
- E 21 = 50 × 50 90 ≈ 27.78 E_{21}=\frac{50\times50}{90}\approx27.78 E21=9050×50≈27.78
-
E
22
=
50
×
40
90
≈
22.22
E_{22}=\frac{50\times40}{90}\approx22.22
E22=9050×40≈22.22
然后计算卡方值:
$ χ 2 = ( 30 − 22.22 ) 2 22.22 + ( 10 − 17.78 ) 2 17.78 + ( 20 − 27.78 ) 2 27.78 + ( 30 − 22.22 ) 2 22.22 ≈ 10.24 χ^{2}=\frac{(30 - 22.22)^{2}}{22.22}+\frac{(10 - 17.78)^{2}}{17.78}+\frac{(20 - 27.78)^{2}}{27.78}+\frac{(30 - 22.22)^{2}}{22.22}\approx10.24 χ2=22.22(30−22.22)2+17.78(10−17.78)2+27.78(20−27.78)2+22.22(30−22.22)2≈10.24 $
根据自由度 d f = ( r − 1 ) ( c − 1 ) = ( 2 − 1 ) ( 2 − 1 ) = 1 df=(r - 1)(c - 1)=(2 - 1)(2 - 1)=1 df=(r−1)(c−1)=(2−1)(2−1)=1,查阅卡方分布表,可判断在一定显著性水平下,服用药物与疾病治愈之间是否存在显著关联。
16、K-mean计算
两个种子点A(-1,1),B(2,1),其余点为(0,0),(0,2),(1,1),(3,2),(6,0),(6,2),利用Kmeans算法,点群中心按坐标平均计算。最终种子点A需要移动的次数,种子点B需要移动的次数,属于种子点A的点数(不包含A),属于种子点B的点数(不包含B)分别为()
A
2,2,3,3
B
1,1,3,3
C
1,1,2,4
D
2,2,2,4
典中典,每次按距离分类然后求平均值。直到平均值不再变化。
17、EM算法
EM算法(Exception Maximization Algorithm)是机器学习领域的一个经典算法,下面关于EM算法的表述中不正确的有( )
A
EM算法属于一种分类算法
B
如果优化的目标函数是凸函数,那么EM算法一定能找到全局最优解
C
EM算法可以分为E-Step和M-Step两步
D
EM算法可用于从不完整的数据中计算最大似然估计
正确答案:A
官方解析:
EM算法是无监督学习算法。 一般的极大似然估计可以解决没有“隐变量”数据样本的问题,但是实际中往往数据是含有“隐变量”的EM算法就是专门解决这种问题而引出的,它也是通过近似的极大似然估计求解含有隐变量的概率模型的参数。
专门求解含有隐变量的问题。 算法的过程: 第一步(E),求期望,第二步(M):求极大。 先初始化参数,然后对样本进行求隐变量的值,在对模型求期望,最后求极大更新参数变量,反复迭代直到收敛。
18、线性分类器最佳准则
以下()属于线性分类器最佳准则? 正确答案ACD
A
感知准则函数
B
贝叶斯分类
C
支持向量机
D
Fisher准则
线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。
- A. 感知准则函数:以使错分类样本到分界面距离之和最小为原则,通过错分类样本提供的信息对分类器函数进行修正,是人工神经元网络多层感知器的基础。
- C. 支持向量机:基本思想是在两类线性可分条件下,设计的分类器界面使两类之间的间隔最大,基本出发点是使期望泛化风险尽可能小,是一种典型的线性分类器(使用核函数可解决非线性问题) 。
- D. Fisher准则:也叫线性判别分析(LDA)。根据两类样本一般类内密集、类间分离的特点,寻找线性分类器最佳的法线向量方向,使两类样本在该方向上的投影满足类内尽可能密集,类间尽可能分开,这种度量通过类内离散矩阵
S
w
S_w
Sw和类间离散矩阵
S
b
S_b
Sb实现。对于数据分布近似高斯分布的情况,该准则能够得到很好的分类效果。
- B. 贝叶斯分类:一种基于统计方法的分类器,要求先了解样本的分布特点(如高斯、指数等),使用起来限制较多。在满足一些特定条件下(如同方差高斯分布等),其优化目标与线性分类器有相同结构,其余条件下不是线性分类器,所以它不属于线性分类器最佳准则。
19、单个神经元成“或”逻辑
正确答案:A
1. 明确单个神经元的输出计算方式
对于单个神经元,其输入为
x
0
=
1
x_0 = 1
x0=1(偏置项),
x
1
x_1
x1,
x
2
x_2
x2,对应的权向量为
w
0
w_0
w0,
w
1
w_1
w1,
w
2
w_2
w2,神经元的输出
y
y
y 的计算方式为:(这个其实题目里没有明说,这个是根据答案反推)
y
=
{
1
,
∑
i
=
0
2
w
i
x
i
≥
0
0
,
∑
i
=
0
2
w
i
x
i
<
0
y = \begin{cases} 1, & \sum_{i = 0}^{2} w_i x_i \geq 0 \\ 0, & \sum_{i = 0}^{2} w_i x_i < 0 \end{cases}
y={1,0,∑i=02wixi≥0∑i=02wixi<0
其中
x
0
x_0
x0 恒为
1
1
1,
x
1
x_1
x1 和
x
2
x_2
x2 的取值为
0
0
0 或
1
1
1(逻辑值)。
2. 明确“或”逻辑的真值表
x 1 x_1 x1 | x 2 x_2 x2 | y y y(或逻辑结果) |
---|---|---|
0 0 0 | 0 0 0 | 0 0 0 |
0 0 0 | 1 1 1 | 1 1 1 |
1 1 1 | 0 0 0 | 1 1 1 |
1 1 1 | 1 1 1 | 1 1 1 |
3. 对各选项进行分析
- 选项A:
[
−
0.5
,
1
,
1
]
[-0.5, 1, 1]
[−0.5,1,1]
- 当 x 1 = 0 x_1 = 0 x1=0, x 2 = 0 x_2 = 0 x2=0 时, ∑ i = 0 2 w i x i = − 0.5 × 1 + 1 × 0 + 1 × 0 = − 0.5 < 0 \sum_{i = 0}^{2} w_i x_i = -0.5\times1 + 1\times0 + 1\times0 = -0.5 < 0 ∑i=02wixi=−0.5×1+1×0+1×0=−0.5<0,输出 y = 0 y = 0 y=0。
- 当 x 1 = 0 x_1 = 0 x1=0, x 2 = 1 x_2 = 1 x2=1 时, ∑ i = 0 2 w i x i = − 0.5 × 1 + 1 × 0 + 1 × 1 = 0.5 ≥ 0 \sum_{i = 0}^{2} w_i x_i = -0.5\times1 + 1\times0 + 1\times1 = 0.5 \geq 0 ∑i=02wixi=−0.5×1+1×0+1×1=0.5≥0,输出 y = 1 y = 1 y=1。
- 当 x 1 = 1 x_1 = 1 x1=1, x 2 = 0 x_2 = 0 x2=0 时, ∑ i = 0 2 w i x i = − 0.5 × 1 + 1 × 1 + 1 × 0 = 0.5 ≥ 0 \sum_{i = 0}^{2} w_i x_i = -0.5\times1 + 1\times1 + 1\times0 = 0.5 \geq 0 ∑i=02wixi=−0.5×1+1×1+1×0=0.5≥0,输出 y = 1 y = 1 y=1。
- 当
x
1
=
1
x_1 = 1
x1=1,
x
2
=
1
x_2 = 1
x2=1 时,
∑
i
=
0
2
w
i
x
i
=
−
0.5
×
1
+
1
×
1
+
1
×
1
=
1.5
≥
0
\sum_{i = 0}^{2} w_i x_i = -0.5\times1 + 1\times1 + 1\times1 = 1.5 \geq 0
∑i=02wixi=−0.5×1+1×1+1×1=1.5≥0,输出
y
=
1
y = 1
y=1。
该权向量的输出符合“或”逻辑的真值表。
- 选项B:
[
0
,
0
,
0
]
[0, 0, 0]
[0,0,0]
无论 x 1 x_1 x1 和 x 2 x_2 x2 取何值, ∑ i = 0 2 w i x i = 0 × 1 + 0 × x 1 + 0 × x 2 = 0 \sum_{i = 0}^{2} w_i x_i = 0\times1 + 0\times x_1 + 0\times x_2 = 0 ∑i=02wixi=0×1+0×x1+0×x2=0,输出 y = 0 y = 0 y=0,不符合“或”逻辑。 - 选项C:
[
−
1
,
0
,
1
]
[-1, 0, 1]
[−1,0,1]
- 当 x 1 = 0 x_1 = 0 x1=0, x 2 = 1 x_2 = 1 x2=1 时, ∑ i = 0 2 w i x i = − 1 × 1 + 0 × 0 + 1 × 1 = 0 \sum_{i = 0}^{2} w_i x_i = -1\times1 + 0\times0 + 1\times1 = 0 ∑i=02wixi=−1×1+0×0+1×1=0,输出 y = 0 y = 0 y=0,不符合“或”逻辑中 x 1 = 0 x_1 = 0 x1=0, x 2 = 1 x_2 = 1 x2=1 时 y = 1 y = 1 y=1 的情况。
- 选项D:
[
1
,
2
,
2
]
[1, 2, 2]
[1,2,2]
- 当 x 1 = 0 x_1 = 0 x1=0, x 2 = 0 x_2 = 0 x2=0 时, ∑ i = 0 2 w i x i = 1 × 1 + 2 × 0 + 2 × 0 = 1 ≥ 0 \sum_{i = 0}^{2} w_i x_i = 1\times1 + 2\times0 + 2\times0 = 1 \geq 0 ∑i=02wixi=1×1+2×0+2×0=1≥0,输出 y = 1 y = 1 y=1,不符合“或”逻辑中 x 1 = 0 x_1 = 0 x1=0, x 2 = 0 x_2 = 0 x2=0 时 y = 0 y = 0 y=0 的情况。
综上,答案是A。
20、贝叶斯分类器描述
下面关于贝叶斯分类器描述错误的是( ) 正确答案:B
A
以贝叶斯定理为基础
B
是基于后验概率,推导出先验概率
C
可以解决有监督学习的问题
D
可以用极大似然估计法解贝叶斯分类器
应该是基于先验概率推导出后验概率 。
21、bootstrap数据
bootstrap数据是什么意思?正确答案:C
A
有放回地从总共M个特征中抽样m个特征
B
无放回地从总共M个特征中抽样m个特征
C
有放回地从总共N个样本中抽样n个样本
D
无放回地从总共N个样本中抽样n个样本
Bootstrap数据的定义
Bootstrap(自助法)是一种有放回的抽样方法,常用于统计学和机器学习领域,用于估计统计量的分布、评估模型的稳定性等。其核心操作是有放回地从原始数据集中抽取样本,从而生成多个新的数据集。具体来说,是有放回地从总共 (N) 个样本中抽样 (n) 个样本,这里的 (n) 通常与 (N) 相等,也就是从包含 (N) 个样本的原始数据集中,每次随机抽取一个样本,记录下来后再将其放回数据集,重复这个过程 (n) 次,最终得到一个新的包含 (n) 个样本的数据集,这个新数据集就是Bootstrap数据。
对各选项的分析
- 选项A:Bootstrap抽样的对象是样本,而不是特征。特征是样本的属性,Bootstrap方法主要用于对样本进行抽样以构建新的样本集合,所以该选项错误。
- 选项B:同选项A,抽样对象错误,且Bootstrap是有放回抽样,并非无放回抽样,所以该选项错误。
- 选项C:符合Bootstrap数据的定义,是有放回地从总共 (N) 个样本中抽样 (n) 个样本,所以该选项正确。
- 选项D:Bootstrap抽样是有放回的抽样方式,而此选项描述的是无放回抽样,所以该选项错误。
22、支持度、置信度、提升度
-
计算支持度
支持度 (Support(乒乓球 \to 羽毛球)) 是指同时看了乒乓球比赛和羽毛球比赛的人数占总人数的比例。
已知总共有 (1000) 名球迷((A)队 (500) 人,(B)队 (500) 人),(A)队看乒乓球比赛的有 (500) 人,其中 (450) 人同时看了羽毛球比赛,(B)队看乒乓球比赛的人数为 (0) 人。
所以同时看了乒乓球比赛和羽毛球比赛的人数为 (450) 人。
根据支持度公式: S u p p o r t ( 乒乓球 → 羽毛球 ) = 同时看乒乓球和羽毛球的人数 总人数 = 450 1000 = 0.45 Support(乒乓球 \to 羽毛球)=\frac{\text{同时看乒乓球和羽毛球的人数}}{\text{总人数}}=\frac{450}{1000}=0.45 Support(乒乓球→羽毛球)=总人数同时看乒乓球和羽毛球的人数=1000450=0.45。 -
计算置信度
置信度 (Confidence(乒乓球 \to 羽毛球)) 是指在看了乒乓球比赛的人中,同时看了羽毛球比赛的概率。
看乒乓球比赛的人数为 (A)队看乒乓球比赛的 (500) 人((B)队看乒乓球比赛人数为 (0) 人)。
根据置信度公式: C o n f i d e n c e ( 乒乓球 → 羽毛球 ) = 同时看乒乓球和羽毛球的人数 看乒乓球的人数 = 450 500 = 0.9 Confidence(乒乓球 \to 羽毛球)=\frac{\text{同时看乒乓球和羽毛球的人数}}{\text{看乒乓球的人数}}=\frac{450}{500}=0.9 Confidence(乒乓球→羽毛球)=看乒乓球的人数同时看乒乓球和羽毛球的人数=500450=0.9。 -
计算提升度
提升度 (Lift(乒乓球 \to 羽毛球)) 是指置信度与看羽毛球比赛的支持度的比值。
看羽毛球比赛的人数为 (A)队 (450) 人加上 (B)队 (450) 人,即 (450 + 450 = 900) 人。
则看羽毛球比赛的支持度为: 900 1000 = 0.9 \frac{900}{1000}=0.9 1000900=0.9。
根据提升度公式: L i f t ( 乒乓球 → 羽毛球 ) = C o n f i d e n c e ( 乒乓球 → 羽毛球 ) S u p p o r t ( 羽毛球 ) = 0.9 0.9 = 1 Lift(乒乓球 \to 羽毛球)=\frac{Confidence(乒乓球 \to 羽毛球)}{Support(羽毛球)}=\frac{0.9}{0.9}=1 Lift(乒乓球→羽毛球)=Support(羽毛球)Confidence(乒乓球→羽毛球)=0.90.9=1。
综上,乒乓球 → \to → 羽毛球的支持度、置信度和提升度分别是 0.45 0.45 0.45、 0.9 0.9 0.9、 1 1 1,答案选A。
23、最大似然估计的0值
语言模型的参数估计经常使用MLE(最大似然估计)。面临的一个问题是没有出现的项概率为0,这样会导致语言模型的效果不好。为了解决这个问题,需要使用()
A
平滑
B
去噪
C
随机插值
D
增加白噪音
正确答案A 记住就行。
24、线性SVM分类器的分类面方程
有两个样本点,第一个点为负样本,它的特征向量是(0,-1);第二个点为正样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()正确答案C(这题的题目存在问题,我这里改正了。)
A
2x+y=4
B
x+2y=5
C
x+2y=3
D
以上都不对
- 整体背景
这是一个线性支持向量机(SVM)在求解最优分类超平面时构建的优化问题。在二分类的线性可分问题中,SVM 的目标是找到一个最优的分类超平面,使得不同类别的样本能够被正确分开,并且两类样本到该超平面的间隔最大。 - 目标函数: min 1 2 ( w 1 2 + w 2 2 ) \min \frac{1}{2}(w_1^2 + w_2^2) min21(w12+w22)
- 含义:在线性 SVM 中,分类超平面的方程通常表示为 w T x + b = 0 \mathbf{w}^T\mathbf{x}+b = 0 wTx+b=0,其中 w = ( w 1 , w 2 ) T \mathbf{w}=(w_1, w_2)^T w=(w1,w2)T 是超平面的法向量, b b b 是偏置项, x = ( x 1 , x 2 ) T \mathbf{x}=(x_1, x_2)^T x=(x1,x2)T 是样本的特征向量。目标函数 min 1 2 ( w 1 2 + w 2 2 ) \min \frac{1}{2}(w_1^2 + w_2^2) min21(w12+w22) 实际上就是 min 1 2 ∥ w ∥ 2 \min \frac{1}{2}\|\mathbf{w}\|^2 min21∥w∥2(因为 ∥ w ∥ 2 = w 1 2 + w 2 2 \|\mathbf{w}\|^2 = w_1^2 + w_2^2 ∥w∥2=w12+w22),其目的是最小化 w \mathbf{w} w 的模长的平方的一半。
- 作用:最小化 ∥ w ∥ 2 \|\mathbf{w}\|^2 ∥w∥2 等价于最大化两类样本到分类超平面的间隔。因为间隔 γ = 2 ∥ w ∥ \gamma=\frac{2}{\|\mathbf{w}\|} γ=∥w∥2,所以 ∥ w ∥ \|\mathbf{w}\| ∥w∥ 越小,间隔 γ \gamma γ 就越大,这样得到的分类超平面就越鲁棒,对未知样本的泛化能力就越强。
- 约束条件
约束条件一: − 1 × ( 0 × w 1 − 1 × w 2 + b ) ≥ 1 -1\times(0\times w_1 - 1\times w_2 + b)\geq1 −1×(0×w1−1×w2+b)≥1
- 样本对应:对应于特征向量为 ( 0 , − 1 ) (0, -1) (0,−1) 的负样本(这里给样本标记为 -1 类)。
- 原理:对于线性可分的 SVM,要求所有样本都要被正确分类,并且到分类超平面的距离要大于等于某个值(在标准形式下是 1)。对于负样本 x i \mathbf{x}_i xi,需要满足 y i ( w T x i + b ) ≥ 1 y_i(\mathbf{w}^T\mathbf{x}_i + b)\geq1 yi(wTxi+b)≥1,其中 y i y_i yi 是样本的标签,这里 y i = − 1 y_i=-1 yi=−1, x i = ( 0 , − 1 ) \mathbf{x}_i=(0, -1) xi=(0,−1),代入可得 − 1 × ( 0 × w 1 − 1 × w 2 + b ) ≥ 1 -1\times(0\times w_1 - 1\times w_2 + b)\geq1 −1×(0×w1−1×w2+b)≥1。
约束条件二: 1 × ( 2 × w 1 + 3 × w 2 + b ) ≥ 1 1\times(2\times w_1 + 3\times w_2 + b)\geq1 1×(2×w1+3×w2+b)≥1
- 样本对应:对应于特征向量为 ( 2 , 3 ) (2, 3) (2,3) 的正样本(这里给样本标记为 +1 类)。
- 原理:同样根据线性可分 SVM 的分类要求,对于正样本 x j \mathbf{x}_j xj, y j = 1 y_j = 1 yj=1, x j = ( 2 , 3 ) \mathbf{x}_j=(2, 3) xj=(2,3),代入 y j ( w T x j + b ) ≥ 1 y_j(\mathbf{w}^T\mathbf{x}_j + b)\geq1 yj(wTxj+b)≥1 就得到 1 × ( 2 × w 1 + 3 × w 2 + b ) ≥ 1 1\times(2\times w_1 + 3\times w_2 + b)\geq1 1×(2×w1+3×w2+b)≥1。
可以使用拉格朗日乘数法来求解这个有约束的优化问题。
- 拉格朗日函数构建
引入拉格朗日乘子 α 1 ≥ 0 \alpha_1\geq0 α1≥0和 α 2 ≥ 0 \alpha_2\geq0 α2≥0,构建拉格朗日函数:
L ( w 1 , w 2 , b , α 1 , α 2 ) = 1 2 ( w 1 2 + w 2 2 ) − α 1 ( w 2 − b − 1 ) − α 2 ( 2 w 1 + 3 w 2 + b − 1 ) L(w_1,w_2,b,\alpha_1,\alpha_2)=\frac{1}{2}(w_1^2 + w_2^2)-\alpha_1(w_2 - b - 1)-\alpha_2(2w_1 + 3w_2 + b - 1) L(w1,w2,b,α1,α2)=21(w12+w22)−α1(w2−b−1)−α2(2w1+3w2+b−1)
- 求偏导数并令其为 0
- 对
w
1
w_1
w1求偏导:
∂ L ∂ w 1 = w 1 − 2 α 2 = 0 \frac{\partial L}{\partial w_1}=w_1 - 2\alpha_2 = 0 ∂w1∂L=w1−2α2=0,可得 w 1 = 2 α 2 w_1 = 2\alpha_2 w1=2α2 - 对
w
2
w_2
w2求偏导:
∂ L ∂ w 2 = w 2 − α 1 − 3 α 2 = 0 \frac{\partial L}{\partial w_2}=w_2-\alpha_1 - 3\alpha_2=0 ∂w2∂L=w2−α1−3α2=0,可得 w 2 = α 1 + 3 α 2 w_2=\alpha_1 + 3\alpha_2 w2=α1+3α2 - 对
b
b
b求偏导:
∂ L ∂ b = α 1 − α 2 = 0 \frac{\partial L}{\partial b}=\alpha_1-\alpha_2 = 0 ∂b∂L=α1−α2=0,可得 α 1 = α 2 \alpha_1=\alpha_2 α1=α2
- 结合约束条件求解
将 α 1 = α 2 \alpha_1=\alpha_2 α1=α2代入 w 1 = 2 α 2 w_1 = 2\alpha_2 w1=2α2和 w 2 = α 1 + 3 α 2 w_2=\alpha_1 + 3\alpha_2 w2=α1+3α2,可得 w 1 = 2 α 1 w_1 = 2\alpha_1 w1=2α1, w 2 = 4 α 1 w_2 = 4\alpha_1 w2=4α1
将 w 1 = 2 α 1 w_1 = 2\alpha_1 w1=2α1, w 2 = 4 α 1 w_2 = 4\alpha_1 w2=4α1代入约束条件 w 2 − b ≥ 1 w_2 - b\geq1 w2−b≥1和 2 w 1 + 3 w 2 + b ≥ 1 2w_1 + 3w_2 + b\geq1 2w1+3w2+b≥1
由 w 2 − b = 1 w_2 - b = 1 w2−b=1(因为支持向量机中,对于支持向量,约束条件取等号)可得 4 α 1 − b = 1 4\alpha_1 - b=1 4α1−b=1,即 b = 4 α 1 − 1 b = 4\alpha_1 - 1 b=4α1−1
将 w 1 = 2 α 1 w_1 = 2\alpha_1 w1=2α1, w 2 = 4 α 1 w_2 = 4\alpha_1 w2=4α1, b = 4 α 1 − 1 b = 4\alpha_1 - 1 b=4α1−1代入 2 w 1 + 3 w 2 + b = 1 2w_1 + 3w_2 + b = 1 2w1+3w2+b=1
2 × ( 2 α 1 ) + 3 × ( 4 α 1 ) + 4 α 1 − 1 = 1 2\times(2\alpha_1)+3\times(4\alpha_1)+4\alpha_1 - 1 = 1 2×(2α1)+3×(4α1)+4α1−1=1
4 α 1 + 12 α 1 + 4 α 1 = 2 4\alpha_1+12\alpha_1 + 4\alpha_1=2 4α1+12α1+4α1=2
20 α 1 = 2 20\alpha_1=2 20α1=2
解得 α 1 = α 2 = 1 10 \alpha_1=\alpha_2=\frac{1}{10} α1=α2=101
- 计算 w 1 w_1 w1, w 2 w_2 w2和 b b b的值
- w 1 = 2 α 1 = 1 5 w_1 = 2\alpha_1=\frac{1}{5} w1=2α1=51
- w 2 = 4 α 1 = 2 5 w_2 = 4\alpha_1=\frac{2}{5} w2=4α1=52
- b = 4 α 1 − 1 = 4 × 1 10 − 1 = − 3 5 b = 4\alpha_1 - 1=4\times\frac{1}{10}-1=-\frac{3}{5} b=4α1−1=4×101−1=−53
分类面方程为 w 1 x 1 + w 2 x 2 + b = 0 w_1x_1 + w_2x_2 + b = 0 w1x1+w2x2+b=0,即 1 5 x 1 + 2 5 x 2 − 3 5 = 0 \frac{1}{5}x_1+\frac{2}{5}x_2-\frac{3}{5}=0 51x1+52x2−53=0,两边同时乘以 5 得到 x 1 + 2 x 2 = 3 x_1 + 2x_2=3 x1+2x2=3
所以,最终得到的分类面方程为 x + 2 y = 3 x + 2y = 3 x+2y=3,其中 w = ( 1 5 , 2 5 ) w=(\frac{1}{5},\frac{2}{5}) w=(51,52), b = − 3 5 b =-\frac{3}{5} b=−53。
下接这篇:机械学习基础(2)