#给它起一个方便调用的名字
import pandas as pd
开始查看数据
fpath = "http://72.itmc.org.cn:80/JS001/data/user/14115/63/fj_order_data.csv"
#读取数据
ratings = pd.read_csv(fpath)
#查看前几行
ratings.head()
#查看后5行
ratings.tail()
#查看数据的形状,返回(行数、列数)
ratings.shape
#查看列名列表
ratings.columns
#查看索引列
ratings.index
#查看每列的数据类型
ratings.dtypes
#数据表详情信息
df.info()
#查看state这一列去掉重复之后的值
df['state'].unique()
在txt格式里,我想把它改成表格样式的
fpath1 = "http://72.itmc.org.cn/JS001/data/user/14115/76/fj_alice_adventure.txt"
#文件路径,列的分隔符,没有标题行,设置列名
pvuv = pd.read_csv(
fpath1,
sep="\t",
header=None,
names=['pdate','pv','uv']
)
Series是一维数据
#Series
#一维数据,左边索引,右边数据
s1=pd.Series([1,'a',5.2,7])
#获取索引
s1.index
#获取数据
s1.values
#指定索引
s2=pd.Series([1,'a',5.2,7],index=['a','b','c','d'])
DataFrame是二维数据
类型,索引,查询
#DataFrame
#用字典创建列表
data={
'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],
'year':[2000,2001,2002,2003,2004],
'pop':[1.5,1.7,3.6,2.4,2.4]
}
df = pd.DataFrame(data)
#各类类型
df.dtypes
#列索引
df.columns
#行索引
df.index
#查询一列 一行
df['year']
df.loc[1]
#查询多列 多行
df[['year','pop']]
df.loc[1:3]
#把某一列变成索引
df.set_index('year',inplace=True)
#替换和改变类型
df.loc[:,'state']=df.loc[:,'state'].str.replace('O','o')
df.loc[:,'year']=df.loc[:,'year'].astype('int32')
#查询 条件查询
print(df.loc[[2000,2001],'pop'])
print(df.loc[df['year']<2002,])
print(df.loc[(df['year']<2003) & (df['pop']<3), :])
删除替换空值
#返回列表是否为空值->bool
df.isnull()
#把空值替换为1
df.fillna(value='1')
#删除索引2行
df.drop(2)
#删除pop列
df.drop(columns=['pop'])
df.drop('pop',axis=1)
#把state列弹到显示区
df.pop('state')