1 线性回归
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。
1 数据+画图
2 一般向量形式
3 最小二乘法损失函数
4 矩阵形式
5 几何解释
6 岭回归,laso回归
2 逻辑回归
一种广义的线性回归问题
求极大似然函数估计值的一般步骤:
- 写出sigmoid函数,并解释
- 写出不同分类下概率值结果(借助sigmoid计算)
- 写出MLE似然函数,取对数并整理;(因为xi是从1到n的独立同分布所以可以写成连乘)
- LR对数据要求是伯努利分布的数据
为什么要是用sigmoid激活函数
- 首先要讲清得是,sigmoid不是只有我们看到的这个函数,他是具有s形状的函数总称
- 可以从伯努利分布推导
- sigmoid可以从softmax这边推导过来,逻辑回归本身就是Softmax回归在二分类的情况
逻辑回归和线性回归的区别
- 先说逻辑回顾是广义的线性回归,在线性回归的结果上添加sigmoid函数,将线性回归的值域映射到0-1
- 一个处理回归问题,逻辑回归处理分类问题
- 线性回归问题的话,求自变量和因变量呈线性关系;而逻辑回归不要求自变量和因变量呈线性关系
- 线性回归期望结果服从正太分布,逻辑回归期望结果服从伯努利分布
- 损失函数不同
3 感知机
- 假设线性可分
- 设定样本集,提出D为错误分类样本集
- 给出模型,sign函数
- 损失函数,指数函数,I{为真=1,为假时=0},指数函数不连续,不可导
- 直接用L(w)=求和-y(wx+b),求导,SDG得到w
4 K-means与KNN
K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
https://www.bilibili.com/video/av29441024/?p=1
https://blog.youkuaiyun.com/qq_21840201/article/details/84504097
https://zhuanlan.zhihu.com/p/41984544
- 数据一定要做预处理,去除不同特征纲量的影响
- 关键点:K值的选择
- 目标函数:
- 质心更新公式:
- 欧式距离计算公式:
算法收敛的条件为
聚类中心不再发生变化,或者是达到一定的迭代次数等。该算法不能保证收敛到全局最优点。
K值的选择
- 经验法
- 手肘法,我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。如图,k应该选3
评价指标
- 样本离最近聚类中心的距离总和
- 轮廓系数 https://www.jianshu.com/p/6352d9d468f8
- 兰德指数
- 同质化得分
其他变种
https://blog.youkuaiyun.com/weixin_37536446/article/details/81326932
K-Means++
就是先选一个样本点为质心,计算所有样本到质心的欧氏距离,然后选择距离较大的(不是距离最远的)点作为新增的质心,迭代直至选出K个质心,作为初始化的质心去运行标准的K-Means算法。
elkan K-Means
减少计算量的,通过三个点之间的运用两边之和大于第三边,两边之差小于第三边。
5 SVM
样本不平衡对SVM的影响
SVM对样本不平衡不敏感,因为他只关注支持向量,因此远离决策超平面的数据的多少并不重要。
核函数
支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K( x, x′) =<φ( x) ⋅φ( x′) > 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化了计算。这样的函数 K(x, x′) 称为核函数。
实例
人脸识别:https://blog.youkuaiyun.com/weixin_40893939/article/detail