
data mining
文章平均质量分 87
weiphm
学生 学习中
展开
-
DCIC赛事-task01-共享单车潮汐算法分析题任务解析、内容介绍与pandas读取数据
本文为2021年DCIC赛事之共享单车潮汐算法分析task01:题目解析+pandas读取数据题目解析算法分析题——早高峰共享单车潮汐点的群智优化潮汐:即自行车的“借还”存在特定时间段的波峰波谷现象。在城市下班的早、晚高峰“借不到、还不进”,由此造成的不便利和公共资源浪费。任务一:首先利用给出的数据识别出早上7-9点潮汐现象最突出的40个区域,要求给出各区域所包含的共享单车停车点位编号名称,并提供计算方法说明及计算模型任务二:根据任务一得到的40个区域,设计高峰期共享单车潮汐点优化方案:过主原创 2021-02-19 23:13:29 · 1577 阅读 · 7 评论 -
异常检测(五)之高维数据异常检测
高维异常检测的解决方法主要包括:Feature Bagging孤立森林高维即维度数比较高,随之数据空间的体积也会以指数级别增长,以距离为方法会失效,常用的方法为子空间,而子空间中思想常用的方法为集成方法。集成方法:一句话形容是将多个算法或多个基检测器的输出结合起来。一些算法在某些子集上表现很好,一些算法在其他子集上表现很好,然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性,子空间与不同的点集相关,而集成方法使用基检测器来探索不同维度的子集,将这些基学习器集合起来。fea原创 2021-01-24 23:25:25 · 3619 阅读 · 1 评论 -
异常检测(三)之线性模型
线性模型即线性方法,本文介绍线性回归与主成成分分析2种方法对数据进行线性建模的两个前提:近似线性相关假设因变量与所有自变量存在线性关系,且与每一个自变量之间都存在线性关系的假设子空间假设子空间假设认为数据是镶嵌在低维子空间中的,线性方法的目的是找到合适的低维子空间使得异常点(o)在其中区别于正常点(n)。数据可视化首先,确定数据集适应的模型,因此需要对数据进行可视化采用的数据集为breast-cancer-unsupervised-ad数据集,下载地址:数据集包下载...原创 2021-01-18 23:21:59 · 248 阅读 · 0 评论 -
异常检测(二)之基于统计学的方法
目标:使用PyOD库生成toy example并调用HBOS使用pyod库生成toy example官网上给出的代码为见pyod官网详细参数描述pyod.utils.data.generate_data(n_train=1000, n_test=500, n_features=2, contamination=0.1, train_only=False, offset=10, behaviour='old', random_state=None)[source]正态数据由多元高斯分布生成,离群原创 2021-01-15 22:08:03 · 527 阅读 · 3 评论 -
异常检测(一)之基本概念与方法
异常检测(一)之基本概念1.什么是异常检测即识别与正常数据不同的数据,与预期行为差异大的数据。这张图里O1 O2 O3就是离群点。这张图红点处为偏离的异常点,数据突然上升或者下降。异常值的特点:异常值不一定是坏的,我们对其成因感兴趣;异常值往往是在无监督的情况下完成,没有标签。异常检测应用:金融行业反诈骗;罕见病的检测;机器故障检测;网络流量入侵;图结构群体检测面对的挑战无监督运算开销大在实际应用中解释性较差检测的历史规则融合使用的工具Pyod:算法较多原创 2021-01-11 21:14:55 · 1934 阅读 · 0 评论