【1】信息增益和信息增益率的区别
用信息增益作为评判划分属性的方法其实是有一定的缺陷的,信息增益准则对那些属性的取值比较多的属性有所偏好,也就是说,采用信息增益作为判定方法,会倾向于去选择属性取值比较多的属性。那么,选择取值多的属性为什么就不好了呢?举个比较极端的例子,如果将身份证号作为一个属性,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率最大的属性作为划分属性,而是之前先通过一遍筛选,先把信息增益低于平均水平的属性剔除掉,之后从剩下的属性中选择信息增益率最高的,这样的话,相当于两方面都得到了兼顾。
信息增益和基尼不纯度的区别
基尼不纯度:这个样本被选中的概率乘以它被分错的概率。将来自集合中的某种结果随机应用于集合中某一数据项的预期误差率。
熵:代表集合的无序程度。
熵和基尼不纯度之间的主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些。
【2】凸优化中KKT条件的物理意义是什么
KKT条件是指在满足一些条件时,一个非线性问题能有最优化解法的一个充要条件,这是一个广义化拉格朗日乘数的成果。
一般,如果一个最优化问题:
【3】设是定义域为实数的函数,如果对于所有的实数x。如果对于所有的实数x,
,那么
是凸函数。当x是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数。如果只大于0,不等于0,那么称f是严格凸函数。
Jensen不等式表述如下:
如果是凸函数,X是随机变量,那么
,特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。Jensen 不等式的意义是:函数的期望大于等于期望的函数:
【1】
(1)梯度下降法容易陷入局部极小,EM算法是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计,但是和梯度下降一样,容易陷入局部最优。
(2)K-means不是全局收敛的,如果是全局收敛的,每次聚类的结果会相同。k-means的时间复杂度为,N-样本个数,K-聚类类数,T-迭代次数。
(3)L1正则可以使少数权值较大,多数权值为0,得到稀疏的权值;L2正则会使权值都趋近于0但非零,得到平滑的权值;
(4)在AdaBoost算法中,被错分的样本的权重更新比例的公式相同;
(5)Boosting和Bagging都是组合多个分类器投票的方法,但Boosting是根据单个分类器的正确率决定其权重,Bagging是可简单地设置所有分类器权重相同;
(6)SVR中核函数宽度小欠拟合,宽度大容易过拟合;
(7)生成式模型
- 判别式分析
- 朴素贝叶斯
- K近邻(KNN)
- 混合高斯模型
- 隐马尔科夫模型(HMM)
- 贝叶斯网络
- Sigmoid Belief Networks
- 马尔科夫随机场(Markov Random Fields)
- 深度信念网络(DBN)
判别式模型
- 线性回归(Linear Regression)
- 逻辑斯蒂回归(Logistic Regression)
- 神经网络(NN)
- 支持向量机(SVM)
- 高斯过程(Gaussian Process)
- 条件随机场(CRF)
- CART(Classification and Regression Tree)
(8)无约束最优化算法:最速梯度法,牛顿法,共轭梯度法,拟牛顿法(包括DFP,BFGS,L-BFGS)。
SMO算法可以高效的求解SVM的对偶问题,这个问题有约束条件,,其中n是样本的数量,
是拉格朗日乘子。
(9)KNN(K-Nearest Neighbor)工作原理(有标签):存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系。输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特征进行比较,提取出样本集中特征最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k近邻算法中k的出处,通常k是不大于20的整数。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。