数据处理
imrush
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
list中每个数字都减1或者每个元素都加1
import pandas as pdimport numpy as npdf = pd.read_csv(r'新建Microsoft Excel 工作表.csv')df = 1-np.array(df)print(df)原创 2022-02-28 14:59:40 · 1841 阅读 · 0 评论 -
使用pyod包进行离群点检测将各个方法ROC图绘制在一张图上
# 导包from pyod.models.lof import LOFfrom pyod.models.knn import KNNfrom pyod.models.iforest import IForestimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.metrics import roc_curve, auc, roc_auc_score# 导入数据df = pd.read_csv('Pima.csv')原创 2021-01-22 19:22:57 · 645 阅读 · 2 评论 -
pyod包如何进行异常值检测?
pyod包是异常值检测的重要集成工具,开发者使用的演示方式是.mat文件,那么如何用csv文件进行pyod包的使用,并绘制ROC曲线呢?1.导包from pyod.models.lof import LOF # imprt LOF分类器import pandas as pdfrom sklearn.metrics import roc_auc_score,roc_curve,aucimport matplotlib.pyplot as plt2.导入数据集,这里使用的是经典的PIma印第安人原创 2021-01-22 17:14:48 · 713 阅读 · 0 评论 -
python实现TSNE降维
1.把一个六维数据降成二维并输出1.1导包from sklearn.manifold import TSNEimport pandas as pd1.2读取原来的数据df = pd.read_csv(r'F:\kaiti\data\v1\samples_v1.csv')df = df.values输出:[[100. 37.1 100. 114. 15. ] [100. 37.1 100. 114. 15. ] [101. 37.1 100. 113. 1原创 2021-01-20 19:49:31 · 1049 阅读 · 0 评论 -
干货!python中.csv文件转为.mat文件
1.在做数据处理时,matlab中经常会将.mat文件中的X和y分别以两个矩阵进行存储,例如wine.mat数据集如下:多属性X和标签y已经分离读取.mat代码import scipy.iodata = scipy.io.loadmat('wine.mat')print(data)2.如何将原始的csv文件转换成属性与标签分离的.mat文件呢?首先看原始csv文件的y是紧跟在X后面的预期效果mat文件3 步骤如下:3.1 读取文件import pandas as pddf原创 2021-01-18 21:42:45 · 7211 阅读 · 3 评论 -
COPOD异常检测
1.什么是异常数据?异常数据,区别于大部分数据,足够引起怀疑的少部分数据。2.一维数据怎么处理?计算均值和方差,离均值2个或3个标准差以外的数值可以简单的被认为是异常值。这是从正态分布的角度出发对异常值的判断,然而,现实生活中,数据大部分都是多维的,就单个维度而言,数据分布也不一定是正态分布,此时,如何对异常值进行判定呢?3.多维数据异常值判定?3.1 高维数据在维度之间都是有关联性的3.2 判断一个值是否是异常值,从中间看,就是看距离均值的距离,从两端看,就是估计这个点分布极端位置的可能性4原创 2021-01-16 13:18:41 · 2764 阅读 · 0 评论 -
时序分类问题研究
时序分类问题研究1.时间序列分类问题是数据挖掘、机器学习中关于现实时间序列数据分析处理的一个重要研究方向。时间序列分类有着非常广泛的应用场景,不仅仅是在数据挖掘、机器学习领域受到关注,在统计学、信号处理、环境科学、计算生物学、图像处理、化学计量学等学科和领域中也有一定的影响2.研究方法(1)这类模型的重点在于如何度量不同时间序列样本之间的距离。1994年提出了至今广泛使用的动态时间规整算法(Dynamic Time Wraping,DTW)。基于实值序列的可编辑距离算法(EDR)、固定基数规整距离算法原创 2020-09-17 17:26:16 · 1387 阅读 · 0 评论 -
python数据分析利器——数据离散化
python数据分析利器——数据离散化1.离散化的意义:将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。2.离散化的原因 :决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行,减低抗噪声能力。决策树分裂节点的时候会分的很细,这时候离散化优势就体现出来了。3.离散化的方法,等宽离散法,等频离散法,聚类离散法,二值化,卡方,分位数法。...原创 2020-09-04 09:44:09 · 1106 阅读 · 0 评论
分享