高级人工智能——ExamContent
Decision Tree
算法
决策树的学习包括特征选择和决策树的生成。决策树的生成是一个递归的过程,有三种情形会导致递归的返回:(1)当前结点包含的样本全部属于同一类别,无需划分;(2)当前属性集为空,或是所有样本在属性上取值相同,无法划分;(3)当前结点包含的样本集合为空,不能划分。
公式
Entropy(熵)
为了进行特征选择,需要计算各个特征的信息熵以及选择该特征之后的信息熵。熵(Entropy)表示随机变量不确定的程度。设X是一个取有限个值的离散随机变量,它的概率分布表示为:
P ( X ) = x i = p i , i = 1 , 2 , . . . , n P(X)=x_i=p_i,i=1,2,...,n P(X)=xi=pi,i=1,2,...,n,那么随机变量的熵就可以定义为:
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=−i=1∑npilogpi(从这个公式就可以看出,信息熵肯定大于等于0,当某件事一定会发生或者一定不发生时,熵为0,反过来熵为0,则表示事件已经确定)。
Information Gain(GI,信息增益)
信息增益表示得知特征x的信息而使得类y的信息的不确定性减少的程度。
特征A对于某个数据集D的信息增益可以表示为g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)=H(D)-H(D|A) g(D,A)=H(D)−H(D∣A)
熵H(Y)与条件熵之差H(Y∣X)称为互信息。信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。
根据信息增益准则的特征选取方法是:对训练数据集D,计算其每个特征的信息增益,并比较大小,选择信息增益最大的特征
以上参考:决策树(Decision Tree)_csdn决策树-优快云博客
题目
CNN(卷积神经网络)
主要会计算卷积之后的输出大小、卷积参数的求解以及池化的概念和池化的计算。
原理
这里只讲池化的作用:使得特征表示更少并且更可控、独立控制每个激活图。
公式
以上参考:卷积神经网络(CNN)_cnn csdn-优快云博客
题目
RNN(循环神经网络)
原理
RNN之所以叫做循环神经网络,是因为对于序列中的每个元素,都会执行相同的任务,输出依赖于先前的计算。从另一个角度考虑可以认为RNN具有记忆,可以捕获到目前位置见过的信息。理论上RNN是可以利用任意长度序列的信息的,但是实际上RNN会被限制在固定的几个时间步里。下面是一个经典的RNN示意图
公式
前向转播
RNN的前向传播公式可以写为:
h t = f w ( h t − 1 , x t ) h_t=f_w(h_{t-1},x_t) ht=fw(ht−1