
Pandas高级
么心learning
nothing
展开
-
Pandas高级:query方法教你优雅的查询
好久好久没写博客了。最近看到个很实用的pandas方法,记录下。query()DataFrame.query(expr,inplace=False,**kwargs),用于通过boolean表达式来查询dataframe中的列。主要参数为expr,它是字符串表达式,有如下说明:要评估的查询字符串。可以在环境中引用变量,方法是在变量前添加一个@字符,例如@a + b。可以在反引号内将包含空格或运算符的列名引用起来。 这样,您还可以转义以数字开头或Python关键字的名称。 基本上是..原创 2020-12-19 12:50:32 · 12907 阅读 · 10 评论 -
Pandas:一列拆分为多列
假设dataframe中有一列数据为如下形式:需要将YEAR_UNIT_DEPOSIT_PRO这一列的数据按照指定分隔符‘|’拆分为12列,并拼接到原始数据中生成新的dataframe。方法如下:# 数据拆分、拼接new_names = ['gjj_pro_' + str(x + 1) for x in range(12)] # 为新生成的列取名gjj_pro = gjj_...原创 2020-05-08 14:11:21 · 14279 阅读 · 0 评论 -
数据分析:各种方法
iv值,MIC值,KS值,相关系数,皮尔森相关系数计算方法。# -*- coding: utf-8 -*-# @Time : 2019/2/14 下午4:19# @Author : yangchen# @FileName: IV.py# @Software: PyCharm# @Blog :https://blog.youkuaiyun.com/opp003/articlei...原创 2019-05-09 16:30:55 · 448 阅读 · 0 评论 -
Pandas高级:map、apply和applymap
使用Pandas进行数据处理时,常用的映射函数有三种:map(),apply()和applymap()。map()函数是Python自带的,它只能用于一维数组。在Pandas中使用时,只能用于Series类型或者DataFrame中的某一列/行。apply()和applymap()是Pandas中的函数。他们可以用于一维或者多维数组。1.mapmap() 会根据提供的函数对指定序列...原创 2019-02-12 11:06:40 · 1069 阅读 · 0 评论 -
Pandas高级:list转为dataframe
项目中处理好数据后,进行特征筛选,并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后,输出的list类型数据,需要将其转为pandas中的dataframe,方便后续存储。先按照特征的IV值排序:dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...原创 2019-02-15 13:14:39 · 12582 阅读 · 1 评论 -
Pandas高级:合并数据集concat
本文主要介绍pandas中常用的数据合并的方法concat。先定义一个生产数据的函数:"""一个简单的DataFrame"""def make_df(cols, ind): data = {c: [str(c) + str(i) for i in ind] for c in cols} return pd.DataFrame(data, ind...原创 2019-01-22 10:49:40 · 455 阅读 · 0 评论 -
Pandas高级:你真的会删除缺失值吗?
数据处理过程中,缺失值的处理是经常会遇到的。很多时候,对缺失值的处理是删除。大家都知道pandas提供dropna方法,可以快速删除数据中的缺失值。但是简单的dropna却有很多未知方法在里面。一.发现缺失值Pandas 数据结构有两种有效的方法可以发现缺失值:isnull() 和 notnull()。每种方法都 返回布尔类型的掩码数据,例如:In[13]: data = pd.Se...原创 2019-01-21 11:19:52 · 6334 阅读 · 0 评论 -
问题解决:'numpy.int64' object has no attribute 'timestamp'
在学习Harrison的股票分析时,按照H神的代码运行时报错了。错误信息为:'numpy.int64' object has no attribute 'timestamp'这是由于股票数据是按时间作为index的,但是直接读取数据,是无法将data列作为index的,所以在pandas读取数据时,要设置下,代码如下所示:df = pd.read_csv('google.csv', ...原创 2018-12-03 17:56:32 · 24071 阅读 · 1 评论 -
数据分析:Pandas单变量图形分析
在数据分析过程中,常常会对每个或部分特征变量进行数据分析,而图形展示最为直观。今天就来学习下,如何通过pandas实现单变量的统计图。数据集依旧是Kaggle的Give Me Some Credits。首先,读取数据。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('/cs-training....原创 2018-12-12 14:11:03 · 829 阅读 · 0 评论 -
Pandas技巧:删除列为指定值的数据
初始化一个DataFramedf = pd.DataFrame(np.arange(12).reshape(3,4), columns=['A', 'B', 'C', 'D'])输出: A B C D0 0 1 2 31 4 5 6 72 8 9 10 11如果要删除A列中值为0的那一行:df = df[df['A'] != 0]输出: A B C D1 4 5 6 7...原创 2018-10-16 11:11:08 · 10977 阅读 · 0 评论