Pandas学习笔记

最新推荐文章于 2025-02-07 22:08:48 发布

森林里的北极猿

最新推荐文章于 2025-02-07 22:08:48 发布

阅读量212

点赞数

分类专栏：笔记文章标签： pandas 学习 python

本文链接：https://blog.youkuaiyun.com/weixin_49113403/article/details/129172444

版权

笔记专栏收录该内容

1 篇文章

订阅专栏

文章介绍了如何使用Pandas库创建和读取Excel文件，包括设置DataFrame的索引，读取文件后查看行数和列名，以及处理行、列和单元格数据。还涉及数据区域的读取、数据类型转换、数据计算、排序、筛选、图表绘制和数据校验等核心功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas创建

1、创建excel表格并输入数据

import pandas as pd
import openpyxl

df = pd.DataFrame({'ID':[1,2,3],'Name':['Tim','Victor','Nick']}) //其实就是一个二维表
df.to_excel('output.xlsx') //创建xlsl文件

在这里插入图片描述

import pandas as pd
import openpyxl

df = pd.DataFrame({'ID':[1,2,3],'Name':['Tim','Victor','Nick']})
df = df.set_index('ID') //将ID设为索引
df.to_excel('output.xlsx')

在这里插入图片描述

2、读取文件

people = pd.read_excel('output.xlsx') //读取文件
print(people.shape) //查看excel文件有多少行多少列

输出的结果 (3, 2)

people = pd.read_excel('output.xlsx')
print(people.shape) #输出多少行，多少列
print(people.columns) #输出列名
print(people.head(3)) #输出头三行
print(people.tail(3)) #输出尾三行

people = pd.read_excel('output.xlsx',header=1) 
# header = 1 可以处理列向下移的情况
# header = None 不存在列名的情况
# 可以使用people.columns()为其添加列名

df = pd.read_excel()
df.to_excel()

结果可能是这样
在这里插入图片描述
需要设置列的索引，这样就不会有左边的索引了(incex_col = “ID”)

df = pd.read_excel('C:....',index_col = 'ID')

3、行、列、单元格

d = {'x':100,'y':200,'z':300}
s1 = pd.Series(d)
print(s1)

x 100
y 200
z 300
dtype: int64

l1 = [100,200,300]
l2 = ['x','y','z']

s1 = pd.Series(l1,index=l2) #将l2设置为index
print(s1)

x 100
y 200
z 300
dtype: int64


l1 = [1,2,3]
l2 = [10,20,30]
l3 = [100,200,300]
s1 = pd.Series(l1,index=[1,2,3],name='A')
s2 = pd.Series(l2,index=[1,2,3],name='B')
s3 = pd.Series(l3,index=[1,2,3],name='C')
print(s3)
print("===========")
df = pd.DataFrame({s1.name:s1,s2.name:s2,s3.name:s3})
print(df)
print("===========")
df = pd.DataFrame([s1,s2,s3])
print(df)
print("===========")

在这里插入图片描述

4、数据区域读取与填充数据

在这里插入图片描述
skiprows = 3 跳过前三行
usecols = “C:F” 读取C到F列
dtype={‘ID’:str,‘InStore’:str,‘Date’:str} 将他们的类型都设置为str类型

books[“ID”].at[1] = 100 将ID这个列的第一行设置为100

date的日期那里只是一个格式嘛。
操作日

start + i

操作年

date（start.year + i,start.month,start.day）

操作月

在这里插入图片描述

5、对行进行计算

books['ListPrice'] = book['ListPrice'] * 0.8

6、排序与多重排序

sort_values()
在这里插入图片描述

7、多重筛选

在这里插入图片描述

优化代码
在这里插入图片描述

8、画一个柱状图

在这里插入图片描述

方法二

多条柱状图

在这里插入图片描述

9、两张表进行join

在这里插入图片描述

10、数据校验

在这里插入图片描述
第二种方法

axis：为0的时候，从上到下，为1的时候，从左到右

切分

在这里插入图片描述

求和求平均

在这里插入图片描述

消除重复数据、保留重复数据

在这里插入图片描述
保留重复数据

行列转换

在这里插入图片描述

Pandas学习笔记

Pandas创建

1、创建excel表格并输入数据

2、读取文件

3、行、列、单元格

4、数据区域读取 与 填充数据

5、对行进行计算

6、排序 与 多重排序

7、多重筛选

8、画一个柱状图

多条柱状图

9、两张表进行join

10、数据校验

切分

求和求平均

消除重复数据 、 保留重复数据

行列转换

4、数据区域读取与填充数据

6、排序与多重排序

消除重复数据、保留重复数据