python数据加工2

本文介绍了Pandas中的Series和DataFrame数据结构。Series是key-value型数据,通过pd.Series()创建,DataFrame则类似关系型数据表,可以通过直接定义或导入外部文件创建。访问DataFrame元素可通过列名、显式index或隐式index。对DataFrame进行操作包括删除行或列、条件过滤、算术运算、统计分析、排序、导入导出。此外,还提及了Python数据可视化的库如Matplotlib、Seaborn等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Series

pandas包提供了一种key-value型数据结构,其中key为用户定义的显示index。

如何创建一个series?

用pd.series()方法,第一个参数为data,第二个参数为显示index,二者需要一一对应。

如何使用series?

#查看“显示index”部分
mySeries.index

#查看value部分
mySeries.values

#通过“显示index”读取元素,支持切片
mySeries[["a","b","c"]]

#通过“隐示index”读取元素,支持切片
mySeries[1:4:2]

#更新“显示index”的值
reindex()方法

#支持“显示index”的in操作
“c” in mySeries

DataFrame

DataFrame代表的是一种类似关系表的数据结构。

如何创建一个DataFrame?

前提:导入pandas包,导入的方法为:import pandas as pd

  • 直接定义方法:pd.DataFrame()
  • 导入外部文件方法:用pandas包导入一个外部文件时,自动将其转换为DataFrame对象

如何访问DataFrame的元素?

(1)按列名:df.["id"][2]或df.id[2]

  (2)   按显式index:         df.loc[1,"id"]

  (3)   按隐式index          df.iloc[1,0]

如何删除DataFrame的行或者列

#删除行
df.drop([2])
df.drop([3,4],axis=0,inplace=True)

#按显式索引
df.drop(["id","diagnosis"],axis=1,inplace=True)

#inplace=True 的含义为“就地修改”,即修改数据框本身

如何对DataFrame进行条件过滤

(1)下标中直接写过滤条件        df[df.area_maen>1000]
 

如何对DataFrame的行进行算术运算?

 算术运算并不是按下标的“隐式索引”进行计算,而是按照“显式索引”进行计算

如何对DataFrame的行进行统计分析?

  • .describe()方法

如何对DataFrame进行排序?

  • 查看排序后的值         .sort_values()
  • 查看排序后的显示索引    .sort_index()

如何对DataFrame进行导入或导出?

  • 将外部文件导入DataFrame          用Pandas的read_***类函数
  • 将DataFrame导出到外部文件         用DataFrame的to_***类函数

如何对DataFrame进行分组统计?

#使用groupby
df.groupby("diagnosis")["area mean"].mean()

#圆括号为分组条件
#方括号为计算对象
#最后为分组统计函数

日期与时间

可视化

python中如何进行数据可视化

  • Matplatlib
  • Seaborn
  • Pandas
  • Bokeh
  • Plotly
  • Vispy
  • Vega和gega-lite
     

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值