分类与回归
最小二乘:通过最小化样本值与预测值之间的方差和来计算W(回归系数)。
梯度下降:一种因为计算机存储及运算能力限制而不得不启用的逐步逼近、迭代求解的方法;沿梯度下降的方向求解极小值。
似然:描述已知随机变量输出结果时,未知参数的可能取值。
在贝叶斯公式中,似然度就是P(B|A),最大似然估计就是P(B|A)最大时A的值
后验概率
例:穿裤子的是女生
1.高斯朴素贝叶斯
2.多项式朴素贝叶斯:用多项式分布作为似然度概率模型的分类器,适合文本分类场景。
其中 :拉普拉斯平滑(对于出现概率很小的特征来说,没有出现在某标签的训练样本中并不代表其以后也不会出现。)
https://blog.youkuaiyun.com/gaotihong/article/details/78803197
2.伯努利朴素
高斯过程
聚类:将有多维特诊的数据集划分为多个子集的任务,每组内部数据之间相较其他数据有一定的亲缘性或相似性。
- K-means:一种便于入门的简洁算法,派生了诸多其他划分类的算法。
- 近邻传播:无需设置分组数量的聚类算法。
- 高斯混合模型:用概率模型为每条数据给出多个可能聚类分组的可能性估计。
- DBSCAN:可能有噪声的数据空间中发现凹数据分组的密度聚类算法。
- BIRCH:一种能以数的形式逐级表达组间亲缘性的层次聚类算法。
- 几类距离算法:标量距离、向量距离、时间序列数据距离。
- 聚类评估:基本原理与常用指标介绍。
2.近邻传播:
a.质心;
b.参考度;
c.相似度:s(i,k),值越高,i与k更可能分为一组;
e.责任度:r(i,k),值越高,i越可能加入k一组;
f.可用度:a(i,k),值越高,k越可能成为质心。
更新责任矩阵:如果有其他结点更愿意做质心,则结点i发给k的责任度降低。
更新可用度矩阵:有越多的结点希望k做质心,则其越自告奋勇地争当质心。
3.高斯混合模型:
a.中心极限定理:大量随机变量近似服从正态分布的条件。
如,当试验次数趋于无穷时,二项分布的极限是高斯分布。(投一枚硬币n次,n次正面朝上次数记为n1,满足二项分布,当n足够大时,n1是近似符合均值为0.5n,方差为0.25n的正态分布)
b.最大似然估计。
c.协方差矩阵:球面、对角、绑定、完全。
4.DBSCAN:
将训练样本数据划分为三种类型:核心点、噪声点、边界点。
优点:更好地聚类非凸数据集
原则:a.将边界点划分到它互为邻居的核心点相同的分组中。
b.如果两个核心店互为邻居,则他们属于同一个分组。
c.噪声点不属于任何分组。
5.BIRCH:层次型聚类算法,可以给出聚类后分组之间的亲缘关系,但只适合凸数据。
聚类特征数;样本到该簇质心C的距离是否小于半径r。
6.距离计算:
数据降维
1.PCA:寻找方差最大维度
a.直接删除已有维度;
b.寻找方差更大的降维映射:用特征值寻找最大方差轴、奇异值分解。
2.线性判别分析(LDA):在生成新维度时多考虑了每种标签样本数据集内的分布情况。
标准:最大化类间样本的方差,最小化类内样本的方差(使不同标签数据尽量不重合)。
https://blog.youkuaiyun.com/liuweiyuxiang/article/details/78874106
3.多维标度法(MDS):降维前后样本之间的距离尽量保持一致。
https://blog.youkuaiyun.com/baimafujinji/article/details/79407478
a.生成样本距离矩阵D:5种距离计算方法;
b.生成相似度矩阵B:
c.对B特征值分解:与PCA和LDA中的特征值分解作用一样;
d.由高特征值对应的特征向量组成矩阵B*;
e.将B*分解为的形式,X是降维结果。
4.流形学习:以某种方式表达高维和低维空间样本之间的亲缘性(Isomap-相似度,LLE-近邻权重矩阵,LE-拉普拉斯矩阵);以亲缘性尽量不变为优化目标,用拉格朗日算子或特征值分解求得低维映射。
a.等距映射Isomap(非线性降维)
原理:用测地线计算样本之间的欧几里得距离,然后用该距离进行MDS降维。
测地线距离相当于在地球上衡量从中国上海到美国洛杉矶之间沿着太平洋航行的距离,而不是挖超级隧道能连接两个城市的最短距离。
b.局部线性嵌入(LLE):以保持每个样本与近邻样本之间距离作为降维目标。
步骤:选择近邻;建立权重系数矩阵;降维。
https://www.cnblogs.com/pinard/p/6266408.html?utm_source=itdadao&utm_medium=referral
c.拉普拉斯特征映射LE:https://blog.youkuaiyun.com/qrlhl/article/details/78066994
d.谱聚类:=LE+K-means聚类
由于LE可以减少大量的样本数据维度,使得在计算性能上比直接在高维数据上聚类的K-means等算法有大的飞跃。
e.t-SNE
为什么用t分布表达低维空间样本亲缘性:
在t-SNE出现之前有一个SNE模型,它是一个在高维和低维空间都使用高斯分布的模型。而t-SNE由于将其中的低维分布改进为T-分布而得名,从此在应用上完全替代了SNE,这要从流行学习的拥挤问题说起。
流行学习的拥挤问题:在d维空间中,最多可以有d+1个点相互之间的距离相同;也就是说,在高维空间等距的n个点,映射到维度数n-1的低维空间之后不可能保持等距。
t-分布有两个特性:与高斯分布有两个超参数不同,t-分布只有一个超参数成为自由度,在t-SNE中,t-分布的自由度固定为1;t-分布式形态上与高斯分布类似的概率函数,但两侧尾部比高斯分布高,如下图,自由度越大,两侧尾部越低。
在概率密度函数中,尾部越高表示分布越分散,这样也就意味着用t-分布建模的低维空间拉长了置信区间(置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度,其给出的是被测量参数的测量值的可信程度),因此合理地解决了拥挤问题。