1.对于二分类问题,常用的评价指标是精准度 (Precision) 和召回率 (Recall),且通常类分为正类、负类。
- TP:将正类预测为正类数
- FN:将正类预测为负类数
- FP:将负类预测为正类数
- TN:将负类预测为负类数
因此:
- 精准率: P = TP/(TP + FP)
- 召回率: R = TP/(TP + FN)
- F1值: F1 = 2PR/(P + R)
2.朴素贝叶斯的基本假设:条件独立性,即每个变量(维度)相互独立。
3.1概率质量函数(PMF: Probability Mass Function): 离散型随机变量在各特点取值上的概率。
3.2概率密度函数(PDF: Probability Density Function): 描述连续型随机变量的输出值,在某个确定的取值点附件的可能性的函数。
3.3累积分布函数(CDF: Cumulative Distribution Function): 能完整描述一个实数随机变量X的概率分布,是PDF在特定区间上的积分。有一个分布的CDF函数H(x), 则H(a) = P(X<=a)。
4.在分类问题中,解决正负样本数据量严重不平衡的问题可以采用:重采样、欠采样、权值调整。
5.SVM也被称为最小边缘分类器(minimal margin classifier)。
6.SPSS数据整理功能主要集中在数据和转换。
7.AdaBoost算法中,所有被分错的样本的权重更新比例相同。
8.Bagging和Boosting都是对组合多个分类器投票的方法,二者均根据单个分类器对正确率决定其权重。
- Bagging:采用均匀取样;各预测函数没有权重;各预测函数可以并行发生。
- Boosting:根据错误率取样;各预测函数有权重;各预测函数只能按顺序生成。
9.1 L1范数指向量中各个元素绝对值之和,用于特征选择。使用L1可以得到稀疏的权值。
9.2 L2范数指向量各元素的平方和然后求平方根,用于防止过度拟合,提升模型的泛化能力。使用L2可以得到平滑的权值。
10.PCA变换矩阵是协方差矩阵;K-L变换矩阵可以有很多种,如二阶矩阵、协方差矩阵、总类内离散度矩阵等。
11.Apriori算法是关联分析的原始算法,用于从候选项集中发现频繁项集。步骤为:自连接—剪枝。缺点是无时序先后性。
- AprioriAll算法:AprioriAll算法与Apriori算法的执行过程是一样的,不同点在于候选集的产生,需要区分最后两个元素的前后。
- AprioriSome算法:可以看做是AprioriAll算法的改进。
(1)AprioriSome会产生比较多的候选。
(2)虽然AprioriSome跳跃式计算候选,但因为它所产生的候选比较多,可能在回溯阶段前就占满内存。
(3)如果内存占满了,AprioriSome就会被迫去计算最后一组的候选。
(4)对于较低的支持度,有较长的大序列,AprioriSome算法要好些。
12.GPS算法:类Apriori算法。用于从候选项集中发现具有时序先后性的频繁项集。两个步骤:进行自连接、进行剪枝。缺点:每次计算支持度,都需要扫描全部数据集;对序列模式很长的情况,由于其对应的短的序列模式规模太大,算法很难处理。
13.SPADE算法:改进的GPS算法,规避多次对数据集D进行全表扫描的问题。与GSP算法大体相同,多了一个ID_LIST记录,使得每一次的ID_LIST根据上一次的ID_LIST得到(从而得到支持度)。而ID_LIST的规模是随着剪枝的不断进行而缩小的。所以也就解决了GSP算法多次扫描数据集D问题。
14.FreeSpan算法:即频繁模式投影的序列模式挖掘。核心思想是分治算法。基本思想为:利用频繁项递归地将序列数据库投影到更小的投影数据库集中,在每个投影数据库中生成子序列片断。这一过程对数据和待检验的频繁模式集进行了分割,并且将每一次检验限制在与其相符合的更小的投影数据库中。优点:减少产生候选序列所需的开销。缺点:可能会产生许多投影数据库,开销很大.
15.PrefixSpan 算法:从FreeSpan中推导演化而来的。收缩速度比FreeSpan还要更快些。
16.线性分类器有三大类:感知器准则函数、Fisher准则、SVM
17.当先检验概率未知时,可以使用最小最大损失准则和N-P判决;当先检验概率已知时,可以使用最小误判概率准则和最小损失准则。
18.1经常使用的SVM核函数:线性核函数、多项式核函数、径向基核函数(RBF)、傅立叶核函数、样条核函数、Sigmoid核函数(采用该核函数SVM实现的就是一种多层感知器神经网络)
18.2 在SVM模型操作中,L2正则项作用是最大化分类间隔,使得分类器拥有更强的泛化能力。
18.3 Hinge损失函数作用是最小化经验分类错误。
18.4 SVM的分类间隔为2/||w||,其中||w||代表向量的模。
18.5 在SVM模型中,当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习。
19.机器学习中特征选择的方法:
- DF文档频率:统计特征词出现的文档数量,用来衡量某个特征词的重要性。
- MI互信息法:用来衡量特征词与文档类别之间的信息量。互信息法倾向“低频”的特征词。如某特征词的频率很低,那么MI得分就会很高;对于词频很高的特征词,MI会比较低效。
- 信息增益法:在某个特征词的缺失与存在的两种情况下,通过语料中前后信息的增加,衡量某个特征词的重要性。
- 卡方检验法:首先假设特征词与类别之间是无关的,检验值偏离阈值越大,越有把握否定原假设,即有关系。
- WLLR加权对数似然
- WFO加权频率和可能性
20.主要的特征降维方法:PCA、LLE、Isomap、SVD、LDA(线性判别分析)、深度学习
21.最小二乘法LeastSquares是求线性回归问题最基础的方法之一。
22.隐马尔可夫模型及相应的算法:1.评估——前向后向算法;2.解码(预测)——Viterbi算法;3.学习(模型训练)——Baum-Welch算法(无监督的训练法)
23.基于二次准则函数的H-K算法与感知器算法相比,优点是:1.可以判别问题是否线性可分(对于线性可分的情况,给出最优权矢量;对于非线性可分的情况,退出迭代过程);2.其解的适应性更好。
24.1 常见的判别模型:SVM、传统的神经网络、线性判别分析、线性回归
24.2 常见的产生式模型:高斯、Bayes、混合多项式、专家的混合物、隐马尔可夫模型、马尔可夫的随机场
25.优势函数法的积累势函数K(x)的作用相当于Bayes判决中的后验概率、类概率密度与先验概率的乘积
26.1 AR模型是一种线性预测,即已知N个数据,可由模型推出第N点前面或后面的数据(设推出P点),所以其本质类似于插值。
26.2 MA模型(moving average model)滑动平均模型,模型参量法谱分析方法之一。
26.3 ARMA模型(auto regressive moving average model)自回归滑动平均模型,模型参量法高分辨率谱分析方法之一。这种方法是研究平稳随机过程有理谱的典型方法。它比AR模型法与MA模型法有较精确的谱估计及较优良的谱分辨率性能,但其参数估算比较繁琐。
26.4 GARCH模型称为广义ARCH模型,是ARCH模型的拓展,GARCH对误差的方差进行了进一步的建模,特别适用于波动性的分析和预测。
27.一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布
违背基本假设的计量经济学模型还是可以估计的,只是不能使用普通最小二乘法进行估计。当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
杜宾-瓦特森(DW)检验,计量经济,统计分析中常用的一种检验序列一阶自相关最常用的方法。
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响
(1)完全共线性下参数估计量不存在
(2)近似共线性下OLS估计量非有效
多重共线性使参数估计值的方差增大,1/(1-r2)为方差膨胀因子(Variance Inflation Factor, VIF)
(3)参数估计量经济含义不合理
(4)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外
(5)模型的预测功能失效。变大的方差容易使区间预测的“区间”变大,使预测失去意义。
28.机器学习中发生过度拟合的主要原因有:
(1)使用过于复杂的模型;
(2)数据噪声较大;
(3)训练数据少。
由此对应的降低过度拟合的方法有:
(1)简化模型假设,或者使用惩罚项限制模型复杂度;
(2)进行数据清洗,减少噪声;
(3)收集更多训练数据。
29.基于二次准则函数的H-K算法:就是在最小均方误差准则下求得权矢量。
相比于感知器算法,H-K算法优点:适用于线性可分和非线性可分得情况。对于线性可分的情况,给出最优权矢量;对于非线性可分得情况,能够判别出来,以退出迭代过程。
30.CART决策树:
(1)结构简洁的二叉树。适用于样本特征的取值为是或非的场景,对于连续特征的处理则与C4.5算法相似。
(2)基尼指数计算,相当于从数据集中随机抽取两个样本,其类别不一致的概率。因此可以反应数据集的纯度,基尼值越小纯度越高,即该样本只属于同一类的概率越高。