
pandas
文章平均质量分 57
21岁害怕编程
十八流大学盐焗生
展开
-
Seaborn/matplotlib自定义3D(三维)绘图,使用不同颜色区分不同数据类别:商用数据可视化
对于低维度数据集,或者高维度数据集在使用pca等方法降维后,有时需要根据标签画出3维图,不同类别标签使用不同颜色。如下图所示,x,y,z为数据特征,根据类别使用不同颜色。可见,特征混叠严重,需要更换降维方法。以下,将以 kaggle中Instant Gratification数据集(二分类数据集)为例,在使用pca降维后,根据类别使用不同颜色画图。原创 2023-02-07 16:51:58 · 1631 阅读 · 0 评论 -
IEEE自定义查询:导出文献后数据清洗
自定义搜索:IEEE导出搜索结果,之后使用pandas洗数据。原创 2022-05-12 18:55:06 · 555 阅读 · 0 评论 -
pandas数据上采样
pandas数据上采样方法原创 2022-04-10 11:48:12 · 1679 阅读 · 0 评论 -
pandas数据集数据类型划分II
我们之前的blog写了一个函数,拿到了数据类型的分布。但是,在基于sklearn中的pipeline机器学习机制下,我们希望可以把数据集中的数据类型划分为以下几个部分:1.含大量的空值的列(如一列中超过70%为空)1.数值数据(numerical),并且不含大量的空值2.低类别数的类别数据(categorical),如只含两类的类别数据,并且不含大量的空值3.中等类别数的类别数据,如含3-10类的类别数据,并且不含大量的空值4.高类别数的类别数据,可能类别接近于类似均匀,如一列中70%以原创 2022-03-06 19:45:46 · 1482 阅读 · 0 评论 -
pandas获取数据集数据类型分布(更细粒度的分割)
方法一:pandas_profiling输出分析以泰坦尼克号数据集为例,如果只是康康然后疯狂复制粘贴的话那没啥,但是如果想全流程自动化,就要把ProfileReport的结果用到接下来的数据处理中,不妨把结果输出到json文件。from pandas_profiling import ProfileReportimport pandas as pddf = pd.read_csv('train.csv',index_col=['PassengerId'])report = ProfileR原创 2022-03-05 21:58:07 · 2297 阅读 · 0 评论 -
数据集分析工具pandas-profiling进阶:个性化定制配置文件与参数
个性化定制输出报告,一般我们要修改参数或者配置文件。本文介绍了常用的参数,并且修改了配置文件的一部分来演示结果。原创 2022-03-05 12:37:04 · 2745 阅读 · 0 评论 -
pandas读文件时中UnicodeDecodeError常用解决方案
如果我们遇到UnicodeDecodeError,一般而言是因为编码错误。所以尝试其他编码是个不错的选择。但一一尝试速度较慢,我们不妨使用chardet库和pandas读文件的其他机制解决问题。chardet库可以帮我们检测可能的编码。import pandas as pdimport numpy as npimport chardet# look at the first ten thousand bytes to guess the character encodingwith原创 2022-03-03 18:06:00 · 3240 阅读 · 0 评论 -
pandas描述全部数据的情况(空值个数,类别个数,数据类型)
如果想在pandas中查看数据情况,我们一般使用describe方法,但是describe只对数值数据有效,对categorical数据无效,如果我们想要对所有的数据分析,不妨自己写一个简单的函数,对dataFrame的空值个数,类别个数,数据类型进行统计原创 2022-03-01 22:34:09 · 2146 阅读 · 0 评论 -
dataFrame中,若空值已经被标注为了"unkown"或"?"的处理方法
dataFrame中,若空值已经被标注为了'unkown'或'?'之类的,isnull函数不可行,但是我们可以在读文件时设置,抑或检查 "?" 的存在并统计,还有先转化为nan,随后用我们熟悉的isnull处理。原创 2022-02-27 14:33:09 · 345 阅读 · 0 评论 -
dataFrame中出现空列的检查与空值个数的统计
我们可以使用如下代码:df = pd.DataFrame({'Yes': [50, 21, None, 70, 21], 'No': [131, 2, 98, 1, 3]})cols_with_missing = [col for col in df.columns if df[col].isnull().any()]print(cols_with_missing)for i in cols_with_missing: print(i + ': " + str(df[i].isnul原创 2022-02-27 14:06:34 · 1258 阅读 · 0 评论 -
运用sklearn的pipeline机器学习实战(以墨尔本房价为例)
我们在运用pandas写机器学习的数据预处理时,数据清洗和建模部分有时候会觉得写的比较乱,维护和修改较为麻烦。不过,sklearn库中的Pipeline(流水线)较好地解决了这个问题,原创 2022-02-26 17:38:51 · 1379 阅读 · 0 评论 -
seaborn中jointplot的2D KDE自定义画法:商用数据可视化
在商业可视化领域,对于双特征的KDE等高线图,让等高线变化有了色彩的变化的感觉,两边的小图加阴影,也自定义了调色盘,设置了独特的主题原创 2022-02-25 23:17:46 · 3482 阅读 · 3 评论 -
IEEE论文搜索多单词关键字/关键词不被拆分的个性化搜索方法(IEEE的自定义搜索)
在IEEE搜索时,在查找关键词时,若选择相关度,被引用量可能很低,反之亦然,所以,我们导出搜索结果后使用pandas进行数据清洗,来解决问题(有代码,有解析)原创 2022-02-25 00:16:12 · 8100 阅读 · 3 评论 -
pandas的DataFrame中出现多数据类型的检查(一列中有多个类型)
在pandas中,如果需要查看column的类型,一般使用 df.dtypes方法,它将返回每个列的数据类型。但实践中,有时会出现需要包含多种数据类型的场景,或者dataFrame包含的表格出错,出现了多种数据类型。为了观察dataFrame中的所有类型在列中的分布情况,我们写了对应的检查函数。原创 2022-02-23 20:37:39 · 5144 阅读 · 2 评论