
数据挖掘
文章平均质量分 92
呆子,何必
这个作者很懒,什么都没留下…
展开
-
数据挖掘——异常检测task5:高维数据异常检测
异常检测——高维数据异常检测主要内容:Feature Bagging(集成方法:选择基检测器->分数标准化和组合方法)孤岛森林(集成方法:非参数无监督算法)1、引言维度诅咒难题:随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏。高维空间异常检测,给距离的计算和聚类带来困难,例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但此时所有点对的距离几乎都是相等的(距离集中),使得基于距离的方法失效。高维空间——子空间方法集成是子空间思想中常用的方法之一,可以转载 2021-05-23 20:05:35 · 432 阅读 · 0 评论 -
数据挖掘——异常检测task4:基于相似度的方法
异常检测——基于相似度的方法主要内容:基于距离的度量(基于单元、基于索引)基于密度的度量(k-距离、k-邻域、可达距离、局部可达密度、局部异常因子)1、概述基于相似度的方法的主要思想:异常点的表示与正常点不同实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常转载 2021-05-20 21:36:42 · 249 阅读 · 0 评论 -
数据挖掘——异常检测task3:线性模型
异常检测——线性模型主要研究内容:线性回归、主成分分析1、引言参数化的相关性分析——回归建模:真实数据集中不同维度的数据通常具有高度的相关性,因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。一类相关性分析试图通过其他变量预测单独的属性值——线性回归另一类方法用一些潜在变量来代表整个数——主成分分析假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的转载 2021-05-17 23:25:00 · 409 阅读 · 0 评论 -
数据挖掘——异常检测task2:基于统计学的方法
异常检测——基于统计学的方法主要内容:高斯分布、箱线图、HBOS1、概述1.1、基于统计学方法的一般思想:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把他们作为异常点1.2、基于统计学方法的主要类型:参数方法和非参数方法参数方法:非参数方法:2、参数方法2.1、基于正态分布的一元异常点检测原始数据->正态分布参数->概率密度函数->阈值->异常点# 构造数据import numpy as npdata1 = np.ran转载 2021-05-14 17:15:15 · 357 阅读 · 0 评论 -
数据挖掘——异常检测task1:异常检测介绍
1、异常检测概述·异常检测:识别与正常数据不同的数据,与预期行为差异大的数据·异常类别:a)点异常:指少数个体实例是异常的,大多数个体实例是正常的b)条件异常:又称上下文异常,指在特定情况下个体实例是异常的,在其他情况下都是正常的c)群体异常:指在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,在入侵或欺诈检测等应用中,离群点对应于多个数据点的序列,而不是单个数据点·异常检测任务分类:a)有监督:训练集的正例和反例均有标签b)无监督:训练集无标签c)半监督:在训练集中只有原创 2021-05-11 10:31:22 · 571 阅读 · 0 评论 -
天池数据挖掘比赛-心跳信号分类05-模型融合
模型融合1、简单加权融合:回归(分类概率):算数平均融合、几何平均融合分类:投票综合:排序融合、log融合2、stacking/blending:构建多层模型,并利用预测结果再拟合预测3、boosting/bagging:多树的提升方法一、回归\分类概率-融合:1、简单加权平均,结果直接融合import numpy as npimport pandas as pdfrom sklearn import metrics# 生成一些简单的样本数据,test_prei代表转载 2021-03-28 21:56:52 · 302 阅读 · 0 评论 -
天池数据挖掘比赛-心跳信号分类04-建模调参
建模与调参1、模型:逻辑回归模型、树模型、集成模型2、模型对比与性能评估3、模型调参:贪心调参、网格调参、贝叶斯调参集成模型包括:基于bagging思想的集成模型:随机森林模型基于boosting思想的集成模型:XGBoost模型、LightGBM模型、CatBoost模型二、模型对比与性能评估逻辑回归:优点:训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源原创 2021-03-25 21:32:12 · 606 阅读 · 0 评论 -
天池数据挖掘比赛-心跳信号分类03-特征工程
特征工程学习目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具Tsfresh(TimeSeries Fresh)的使用数据预处理时间序列数据格式处理、加入时间步特征time特征工程时间序列特征构造、特征筛选、使用tsfresh进行时间序列特征处理# 库函数导入import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pdimport matplotlib.pyplo原创 2021-03-22 22:52:05 · 210 阅读 · 0 评论 -
天池数据挖掘比赛-心跳信号分类02-数据分析
数据分析import warningswarnings.filterwarnings('ignore')import missingno as msnoimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport numpy as nptrain_data = pd.read_csv('train.csv')test_data = pd.read_csv('testA.csv')所有特征集均原创 2021-03-19 11:08:31 · 342 阅读 · 1 评论