
机器学习
文章平均质量分 69
土豆面包
这个作者很懒,什么都没留下…
展开
-
python训练大数据集时,分批训练create batch
文章目录问题解决方案create batch(分批训练)Step1. 数据类型转换Step2. 构造迭代器Step3. 分批训练总结云gpu资源问题问题:使用python训练大数据集时,分批训练解决内存不足的问题有的时候我们的机器在跑一些几万条多维数据时(例如知识图谱数据集),会陷入一个内存不足的错误提示,一般解决方案有两种:create batch:分批训练云gpu资源解决方案create batch(分批训练)问题情景:这里举例一个9万多个triples的知识图谱数据集:WN18原创 2021-06-12 13:59:53 · 7217 阅读 · 7 评论 -
异常检测算法:PCA算法的python代码实现
PCA算法算法介绍Principle Component Analysis是主成分分析,简称PCA。它的应用场景是对数据集进行降维,降维后的数据能够最大程度地保留原始数据的特征,同时PCA也可以应用在anomaly detection上。用PCA进行异常检测的原理是:PCA在做特征值分解之后得到的特征向量反应了原始数据方差变化程度的不同方向,特征值为数据在对应方向上的方差大小。所以,最大特征值对应的特征向量为数据方差最大的方向,最小特征值对应的特征向量为数据方差最小的方向。原始数据在不同方向上的方差变原创 2021-05-26 11:12:49 · 2233 阅读 · 1 评论 -
异常检测算法:Elliptic Envelope算法的python代码实现
文章目录Elliptic Envelope算法思想代码实现可视化Elliptic Envelope算法思想Elliptic Envelope算法的思路是,假设常规数据隐含这一个已知的概率分布。基于这个假设,我们尝试确定数据的形状(边界),也可以将远离边界的样本点定义为异常点。SKlearn提供了一个covariance.EllipticEnvelope类,它可以根据数据做一个鲁棒的协方差估计,然后学习到一个包围中心样本点并忽视离群点的椭圆。代码实现使用sklearn中的相关包来实现Elliptic原创 2021-05-25 20:58:40 · 3998 阅读 · 0 评论 -
异常检测算法:One Class SVM算法的python代码实现
文章目录One Class SVM算法介绍代码实现可视化One Class SVM算法介绍One Class SVM也是属于支持向量机大家族的,但是它和传统的基于监督学习的分类回归支持向量机不同,它是无监督学习的方法,也就是说,它不需要我们标记训练集的输出标签。One-Class-SVM,这个算法的思路非常简单,就是寻找一个超平面将样本中的正例圈出来,在超平面之外的就认为是离群点。预测就是用这个超平面做决策,在圈内的样本就认为是正样本。代码实现使用sklearn中的相关包来实现One clas原创 2021-05-25 20:56:31 · 4778 阅读 · 0 评论 -
异常检测算法:LOF算法(Local Outlier Factor)的python代码实现
文章目录LOF算法算法介绍代码实现可视化LOF算法算法介绍Local Outlier Factor(LOF)是基于密度的经典算法,也十分适用于anomaly detection的工作。基于密度的离群点检测方法的关键步骤在于给每个数据点都分配一个离散度,其主要思想是:针对给定的数据集,对其中的任意一个数据点,如果在其局部邻域内的点都很密集,那么认为此数据点为正常数据点,而离群点则是距离正常数据点最近邻的点都比较远的数据点。通常有阈值进行界定距离的远近。LOF 主要通过计算一个数值 score 来反映原创 2021-05-25 17:11:04 · 6072 阅读 · 4 评论 -
异常检测算法:孤立森林(isolation forest)的python代码实现
文章目录孤立森林算法简介代码实现可视化孤立森林算法简介孤立森林是一种无监督学习算法,可以用来做anomaly detection。在孤立森林中,递归地随机分割数据集,直到所有的样本点都是孤立的。在这种随机分割的策略下,通常只需要极少的分割次数就可以使得异常点被孤立。换句话说,那些密度很高的簇是需要被切割很多次才能被孤立,但是那些密度很低的点很容易就可以被孤立。将一维空间拓展到二维空间也是如此,异常点可以很快地被切割成孤立点。代码实现使用sklearn中的相关包来实现孤立森林算法,举一个很简单原创 2021-05-25 17:08:30 · 8699 阅读 · 2 评论