pandas库学习日记

#给它起一个方便调用的名字
import pandas as pd

开始查看数据

fpath = "http://72.itmc.org.cn:80/JS001/data/user/14115/63/fj_order_data.csv"
#读取数据
ratings = pd.read_csv(fpath)
#查看前几行
ratings.head()
#查看后5行
ratings.tail()
#查看数据的形状,返回(行数、列数)
ratings.shape
#查看列名列表
ratings.columns
#查看索引列
ratings.index
#查看每列的数据类型
ratings.dtypes
#数据表详情信息
df.info()
#查看state这一列去掉重复之后的值
df['state'].unique()

 在txt格式里,我想把它改成表格样式的

fpath1 = "http://72.itmc.org.cn/JS001/data/user/14115/76/fj_alice_adventure.txt"
#文件路径,列的分隔符,没有标题行,设置列名
pvuv = pd.read_csv(
    fpath1,
    sep="\t",
    header=None,
    names=['pdate','pv','uv']
    )

Series是一维数据

#Series

#一维数据,左边索引,右边数据
s1=pd.Series([1,'a',5.2,7])
#获取索引
s1.index
#获取数据
s1.values
#指定索引
s2=pd.Series([1,'a',5.2,7],index=['a','b','c','d'])

DataFrame是二维数据

类型,索引,查询

#DataFrame

#用字典创建列表
data={
    'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
    'year':[2000,2001,2002,2003,2004],
    'pop':[1.5,1.7,3.6,2.4,2.4]
    }
df = pd.DataFrame(data)
#各类类型
df.dtypes
#列索引
df.columns
#行索引
df.index
#查询一列 一行
df['year']
df.loc[1]
#查询多列 多行
df[['year','pop']]
df.loc[1:3]

#把某一列变成索引
df.set_index('year',inplace=True)

#替换和改变类型
df.loc[:,'state']=df.loc[:,'state'].str.replace('O','o')
df.loc[:,'year']=df.loc[:,'year'].astype('int32')

#查询  条件查询
print(df.loc[[2000,2001],'pop'])
print(df.loc[df['year']<2002,])
print(df.loc[(df['year']<2003) & (df['pop']<3), :])

删除替换空值

#返回列表是否为空值->bool
df.isnull()
#把空值替换为1
df.fillna(value='1')

#删除索引2行
df.drop(2)
#删除pop列
df.drop(columns=['pop'])
df.drop('pop',axis=1)
#把state列弹到显示区
df.pop('state')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值