零碎知识——机器学习

1. SVM?

SVM的基本思想是求解能够正确划分训练数据集且几何间隔最大的分离超平面,几何间隔大意味着以充分大的确信度对训练数据进行分类。而这样的分离超平面存在且唯一。

软间隔最大化就是对每个样本点引入一个松弛变量,使得函数间隔加上松弛变量大于等于1。此时目标函数加入对松弛变量的惩罚,用C来控制。C越大,对误分类的惩罚越大,误分类点就越少,不过几何间隔可能就相对较小。

核技巧就是不显示的定义从输入空间到特征空间的映射函数,而是直接定义映射的内积当作核函数。有两个原因,一个是特征空间一般是高维或无穷维的,通过映射函数计算核函数比较困难;另一个原因是对偶问题的目标函数和决策函数只涉及实例与实例之间的内积,即x_i与x_j的内积,因此可以直接用核函数来代替,不需要映射函数。

常用的核函数为多项式核函数和高斯核函数。多项式:K(x, z) = (x*z + 1)^p。高斯:K(x, z) = exp(-||x-z||^2 / (2σ^2) )

为什么高斯核能映射到无穷维,根本原因是对e^x 泰勒展开,e^x=Σ_n x^n/n!

损失函数?
hinge损失函数表示如果被分类正确,损失为0,否则损失就为1-y*f(x) 。SVM就是使用这个损失函数。y为label,{-1,+1}。f(x)为预测值

在空间上线性可分的两类点,分别向SVM分类的超平面上做投影,这些点仍然是线性可分的吗?给出证明(反证法 假设线性可分 …… 可得出与最大间隔矛盾)

2. 孤立森林?

孤立森林是适用于连续数据的无监督异常检测方法,孤立森林是由许多颗孤立树组成的,每颗孤立树的生成方式是先随机选择一个特征p和特征值q将数据集分割为两部分,一部分是p小于等于q,一部分是p大于q。然后在左右两个分支中再分别随机选择特征和特征值将数据集分割为两部分,就这样一直下去,直到树的高度达到了最大限制或者节点上只有一个样本或者节点上样本的所有特征都相同。

由于异常点可认为是分布稀疏且离密度高的群体较远的点,所以密度很高的正常数据是需要被切很多次才能被孤立,但是那些密度很低的异常点很容易就可以被孤立,所以异常点通常具有更短的路径

孤立森林作为孤立树的总体,将具有较短路径长度的点识别为异常点

在孤立森林中,小数据集往往能取得更好的效果。样本数较多会降低孤立森林孤立异常点的能力,因为正常样本会干扰隔离的过程,降低隔离异常的能力。

3. 过拟合?

原因:模型太复杂;数据量太少;

解决:增加数据;交叉验证;早停法;重新筛选特征;增加正则项

4. 连续特征离散化?

等宽法:每个区间的宽度相同。缺点是容易受到极大极小值的影响;每个区间的数据数量可能相差较多

等频法:每个区间的样本数量近似相同。缺点是可能将相同的数据分到不同的区间

根据业务经验进行划分

5. 朴素贝叶斯?

朴素贝叶斯通过训练数据集学习Y的先验概率分布和特征X的条件概率分布,然后通过贝叶斯公式即可得到后验概率分布。但学习条件概率分布要估计的参数比较多,所以朴素贝叶斯做了一个条件独立性的假设,即在类别确定的条件下,用于分类的特征是条件独立的。这样就可以用极大既然估计来估计先验概率分布

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值