pandas

1.通过传入一个list的值来创建一个Series对象,并让pandas创建一个默认的序号索引:

import pandas as pd
import numpy as np

s = pd.Series([1,3,6,np.NAN,23,1])
print(s)

>>>>
0     1.0
1     3.0
2     6.0
3     NaN
4    23.0
5     1.0
dtype: float64

2.通过传入一个list的值来创建一个Series对象,并让pandas创建一个自定义的序号索引(以时间日期为例):

import pandas as pd
import numpy as np

k = pd.date_range('2018-8-10',periods=2) #data_range()为日期函数
print(k)
#索引指定为k
s = pd.Series([[1,2,3],[4,5,6]],index=k)
print(s)

>>>>>
DatetimeIndex(['2018-08-10', '2018-08-11'], dtype='datetime64[ns]', freq='D')
2018-08-10    [1, 2, 3]
2018-08-11    [4, 5, 6]
Freq: D, dtype: object

3.通过传入一个list的值来创建一个DataFrame对象,并让pandas创建一个默认的序号索引:(DataFrame对象好比是一个EXCEL表格,索引值已经默认生成,每一列是一类内容)

import pandas as pd
import numpy as np

s = pd.DataFrame(np.random.randn(6,4), columns=list('ABCD'))
print(s)

>>>
         A         B         C         D
0 -1.493380  0.009195  1.548569  0.050338
1 -0.139341  1.246836  0.309992 -0.914084
2  1.610661 -2.255323  1.421774  0.152989
3 -0.299182 -1.723575  0.305811 -0.561350
4 -0.189062  0.872633  0.649384  1.204343
5  0.890815  0.109442  0.466272 -1.103311

4.通过字典来创建DataFrame对象:

import pandas as pd
import numpy as np

df = pd.DataFrame({'景点':np.array(['故宫', '泰山','圆明园','黄山','赤壁','黄鹤楼']),
                   '门票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山东','北京','安徽','湖北','湖北']),
                   })
print(df)

>>>
    景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东    NaN
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北    NaN

5.对DataFrame对象进行操作:

  1. 去除空值:df.pd.dropna()
import pandas as pd
import numpy as np

df = pd.DataFrame({'景点':np.array(['故宫', '泰山','圆明园','黄山','赤壁','黄鹤楼']),
                   '门票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山东','北京','安徽','湖北','湖北']),
                   })
print(df.dropna())

>>>
    景点  省份     门票
0   故宫  北京   80.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0

       2.将空值赋值:df.pd.fillna(value=)

import pandas as pd
import numpy as np

df = pd.DataFrame({'景点':np.array(['故宫', '泰山','圆明园','黄山','赤壁','黄鹤楼']),
                   '门票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山东','北京','安徽','湖北','湖北']),
                   })
print(df.fillna(value=56))

>>>
   景点  省份     门票
0   故宫  北京   80.0
1   泰山  山东   56.0
2  圆明园  北京   20.0
3   黄山  安徽  130.0
4   赤壁  湖北   75.0
5  黄鹤楼  湖北   56.0

      3.groupby分组:

import pandas as pd
import numpy as np

df = pd.DataFrame({'景点':np.array(['故宫', '泰山','圆明园','黄山','赤壁','黄鹤楼']),
                   '门票':np.array([80,np.NAN,20,130,75,np.NAN]),
                   '省份':np.array(['北京','山东','北京','安徽','湖北','湖北']),
                   })
#数据分组统计  df['A'].groupby(df['B']).mean() A按照B进行分组
print(df['门票'].groupby(df['省份']).max())

>>>
省份
北京     80.0
安徽    130.0
山东      NaN
湖北     75.0
Name: 门票, dtype: float64

6.字符串方法

import pandas as pd
import numpy as np

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca', np.nan, 'CABA', 'dog', 'cat'])
#将大写变成小写
print(s.str.lower())

>>>
0       a
1       b
2       c
3    aaba
4    baca
5     NaN
6    caba
7     dog
8     cat
dtype: object

 

转载于:https://www.cnblogs.com/plhc/p/9457857.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值