
Pandas
文章平均质量分 54
DreamingBetter
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Python - Pandas 数据分组groupby
本文摘要:分组后使用聚合函数统计df为单个列groupby,查询所有数据列的统计df.groupby('A').sum()返回结果,可见A变成索引列,里面的值进行了分类有bar、foo。因为调用sum函数,B列不是数字,自动忽略。...原创 2022-03-29 21:41:59 · 6020 阅读 · 0 评论 -
Python - Pandas 数据拼接concat
本文摘要:使用concat拼接数据df1为df2为默认concat,参数axis=0, join=‘outer’, ignore_index=False,即按行拼接,拼接方式保留所有列,不忽略原数据索引。import pandas as pdpd.concat([df1, df2])返回结果设置ignore_index=True,忽略原数据索引import pandas as pdpd.concat([df1, df2], ignore_index=True)返回结原创 2022-03-29 10:37:01 · 3342 阅读 · 0 评论 -
Python - Pandas Dataframe的合并Merge
本文摘要:Pandas的merge相当于SQL的join,将不同的表按共有的列属性关联起来。merge实例现有数据 df_ratings 如下df_users 如下df_movies 如下how=‘innder’ 内连接,表示两表都有同一UserID才会保留,否则丢弃。import pandas as pddf_ratings_users = pd.merge( df_ratings, df_users, left_on='UserID', right_on='UserID', h原创 2022-03-28 23:07:17 · 1183 阅读 · 0 评论 -
Python - Pandas 索引index的使用
本文摘要:修改索引列名修改索引列名为iddf.index.name = 'id'修改索引起始值自动生成的索引从100开始df.index = df.index + 100将数据某一列设为索引将userid列设为索引列,inplace=True表示在原df上修改,drop=False表示保留userid列,默认删除userid列。# 将userid列设为索引列df.set_index('userid', inplace=True, drop=False)# 若修改后可以这么查询u原创 2022-03-28 11:33:00 · 8212 阅读 · 0 评论 -
Python - Pandas 经常用到的axis参数怎么理解?千层蛋糕
本文摘要:单行单列操作,axis=0或者‘index’指的就是行,axis=1或者‘columns’指的就是列。多行多列操作,axis=0或者‘index’指的是跨行操作,可以想象成一块千层蛋糕,双手从上下将其压缩成一层蛋糕,剩下的只有多列了,多列就是你返回对象的索引,每个索引对应的值就是对每一行操作的结果。axis=1或者‘columns’指的是跨列操作,还是一块千层蛋糕,双手从两侧将其压缩成一条千层蛋糕,剩下的就是一千层,也就是行,这些行就是你希望返回对象的索引,每个索引对应的值就是对每一列操作的原创 2022-03-27 22:05:47 · 2041 阅读 · 1 评论 -
Python - Pandas 数据排序与字符串处理
本文摘要:见下图,排序的方法很显而易见,不作演示。字符串处理参考文档Series的str属性# 获取Series的str属性df['bWendy'].str查看返回对象,如下图所示# 字符串替换,将字符串中的°C去掉,返回Series对象df['bWendy'].str.replace('°C', '')# 查看字符串长度,方法与Python字符串大多相似df['bWendy'].str.len()使用str的startswith、contains等返回bool的Series原创 2022-03-27 21:01:39 · 1193 阅读 · 0 评论 -
Python - Pandas 对缺失值的处理方法
本文摘要:实例对这样一个不规则excel进行数据处理本代码主要演示各个功能的使用和解决思路,并不是完整程序。import pandas as pdstudf = pd.read_excel('xx.xlsx', skiprows=2) # 读取时跳过前两行# 检测空值studf.isnull()检测空值的返回结果# 单列检测空值studf['分数'].isnull()# 与isnull相反,非空为Truestudf['分数'].notnull()# 例如筛选没有空分原创 2022-03-26 16:31:21 · 1281 阅读 · 0 评论 -
Python - Pandas 数据统计函数
本文摘要:1.汇总类统计2.唯一去重和按值计数3.相关系数和协方差汇总类统计# 统计所有数字列结果df.describe()统计结果类似下图,索引分别表示:单词含义count总行数mean平均数std标准差min最小值25% 50% 75%分位数max最大值# 查看单列Series的数据df['bWendu'].mean()df['bWendu'].max()df['bWendu'].min()唯一去重和按值计原创 2022-03-26 13:54:45 · 977 阅读 · 0 评论 -
Python - Pandas 如何新增数据列
本文摘要:新增数据列1.直接赋值2.df.apply方法3.df.assgin方法4.按条件选择分组分别赋值直接赋值例子续接上回# df['High']、df['Low']其实是两个Series,相减返回仍是Series# 此处'High-Low'是要新增的新列名,新列数据为df表每行的High列和Low列的高低差df.loc[:, 'High-Low'] = df['High'] - df['Low']df.apply方法下面示例:新增一个’wendu_type’列,表示温度类原创 2022-03-26 13:29:04 · 6658 阅读 · 0 评论 -
Python - Pandas几种数据查询方法
本文摘要:数据查询方法【常用】df.loc方法,根据行、列的标签值查询df.iloc方法,根据行、列的数字位置查询df.where方法df.query方法**注意:**查询过程中数据类型会降维,要注意数据类型的转换。DataFrame >> Series >> Pyhon数据类型引入数据与题外话import pandas as pddf = pd.read_csv('xxx.csv')# 假设不用pd自动生成的0-n的数字索引,将日期设置为索引df.set_原创 2022-03-26 12:45:19 · 3359 阅读 · 0 评论 -
Python - 了解Pandas及其数据类型
本文摘要:Pandas数据读取、Pandas数据类型与转换读取文件类型查看数据属性# 查看数据形状,返回(行数,列数)dataframe.shape# 查看列名,返回Index(['id', 'name', 'grade'], dtype='object')dataframe.columns# 查看索引,返回RangeIndex(start=0, stop=100, step=1)dataframe.index# 查看每列的数据类型dataframe.dtypes# 查看前原创 2022-03-26 11:45:29 · 2326 阅读 · 0 评论