
数据分析
文章平均质量分 74
Icy Hunter
如果我真的存在,也是因为你需要我
展开
-
numpy的一些常见用法
numpy还是蛮好用的,一直没记录,赶紧记录一下。原创 2022-09-26 21:50:42 · 535 阅读 · 0 评论 -
异常检测之基于聚类的局部异常因子检测算法(CBLOF)详细解释且配上代码运行实例
基于聚类的局部异常因子检测算法(CBLOF)文章目录基于聚类的局部异常因子检测算法(CBLOF)前言一、CBLOF是什么?二、CBLOF详解三、CBLOF代码实例前言服务外包使用了CBLOF算法来检测异常商品,感觉其实对于千万级的数据量来识别异常值还是比较困难的,首先准确率先不谈,能够真正在有限时间跑出结果的算法可能都寥寥无几吧。最后代码实例的效果图可以程序先呈现一下,基本上就是CBLOF的整个流程了。一、CBLOF是什么?CBLOF即基于聚类的局部因子检测法顾名思义,是一种采用局部离群原创 2022-04-30 14:23:24 · 4720 阅读 · 14 评论 -
异常值检验的一些方法
异常值检验的一些方法1.局部离群因子检测(LOF)1.局部离群因子检测(LOF)LOF算法对数据分布假设没什么要求,能够量化每个数据点的异常程度,是一种基于密度的检测异常值的方法。LOF算法认为非离群点对象周围的密度与其邻域周围的密度类似,而离群点对象周围的密度显著不同于其邻域周围的密度。其核心思想就是看局部的密度与周围的密度相比较,如果局部密度相对稀疏,则可认为是离群值,即异常值。具体可以参考一文读懂异常检测 LOF 算法(Python代码)讲的还是比较清楚的。调用sklearn可以较快的实现:原创 2022-03-12 15:26:06 · 5590 阅读 · 0 评论 -
数据分布的一些检验方法
数据分布的一些检验方法1.KS检验2.幂律分布检验1.KS检验Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布。当p值>=0.5时,可认为数据符合对应检验的分布。下面以检验正态分布为例from scipy.stats import kstestimport numpy as npimport pandas as pdnp.random.seed(10)n = np.random.ran原创 2022-03-07 21:43:18 · 7639 阅读 · 0 评论 -
seaborn和matplotlib的一些用法
seaborn的一些用法1.sns.distplot()1.sns.distplot()能够画出对应数据的概率密度图,初步判断数据分布情况import matplotlib.pyplot as pltimport seaborn as snsimport matplotlib as mplmpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定中文字体mpl.rcParams['axes.unicode_minus'] = False # 解决原创 2022-03-06 16:10:33 · 1248 阅读 · 0 评论 -
python的re库的一些用法和理解
python的re库的一些用法和理解1 re.sub()2 re.findall()3 re.compile()1 re.sub()这个函数可以用来替换字符串中的制定字符# coding: utf-8import retexts = "dawdada"text1 = re.sub('a', "%", texts)text2 = re.sub('d', "", text1)print(text1)print(text2)运行结果不仅如此,re.sub()还能够匹配到制定的模板之后,将原创 2022-02-27 12:00:22 · 2028 阅读 · 0 评论 -
pandas一些常用函数以及操作的使用和理解(持续更新)
pandas库的一些用法1.创建DataFrame2.dataframe.columns(更改列名)3.dataframe列索引、行索引4.dataframe存、读存csv文件1.创建DataFrameimport pandas as pdimport numpy as npf = pd.DataFrame(np.arange(20).reshape(4, 5), index=["c", "a", "d", "b"])print(f)结果2.dataframe.columns(更改列名)原创 2022-02-11 00:08:51 · 6951 阅读 · 0 评论