pandas 入门(一)

最新推荐文章于 2025-03-26 18:42:04 发布

原创最新推荐文章于 2025-03-26 18:42:04 发布 · 193 阅读

0 ·

CC 4.0 BY-SA版权

10 Minutes to pandas

请参阅官方文档

In [1]:

Python

# 设置为 inline 风格 %matplotlib inline

1 2	< span class = "c1" > # 设置为 inline 风格</span> < span class = "o" > % < / span > < span class = "k" > matplotlib < / span > inline

In [2]:

Python

# 包导入 import pandas as pd import numpy as np import matplotlib.pyplot as plt

# 包导入

import pandas as pd

import numpy as np

import matplotlib . pyplot as plt

创建数据集对象

In [3]:

Python

# Series 对象可以理解为一维数组 s = pd.Series([1, 3, 5, np.nan, 6, 8]) s

# Series 对象可以理解为一维数组

s = pd . Series ( [ 1 , 3 , 5 , np . nan , 6 , 8 ] )

s

Out[3]:

Python

0 1 1 3 2 5 3 NaN 4 6 5 8 dtype: float64

0 1

1 3

2 5

3 NaN

4 6

5 8

dtype : float64

In [4]:

Python

# DataFrame 对象可以理解为二维数组，可以指定索引格式 dates = pd.date_range('20160301', periods=6) # periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。 dates

# DataFrame 对象可以理解为二维数组，可以指定索引格式

dates = pd . date_range ( '20160301' , periods = 6 )

# periods：integer或None，默认值是None，表示你要从这个函数产生多少个日期索引值；如果是None的话，那么start和end必须不能为None。

dates

Out[4]:

Python

DatetimeIndex(['2016-03-01', '2016-03-02', '2016-03-03', '2016-03-04', '2016-03-05', '2016-03-06'], dtype='datetime64[ns]', freq='D')

DatetimeIndex ( [ '2016-03-01' , '2016-03-02' , '2016-03-03' , '2016-03-04' ,

'2016-03-05' , '2016-03-06' ] ,

dtype = 'datetime64[ns]' , freq = 'D' )

In [5]:

Python

df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list('ABCD')) df

df = pd . DataFrame ( np . random . randn ( 6 , 4 ) , index = dates , columns = list ( 'ABCD' ) )

df

Out[5]:

	A	B	C	D
2016-03-01	1.188983	-1.150119	-0.700588	0.439065
2016-03-02	-2.041544	1.084507	-0.335441	1.969754
2016-03-03	1.204151	-1.277714	-0.230671	0.629063
2016-03-04	-0.352351	-1.701585	-0.034294	-0.330139
2016-03-05	0.627601	-0.292939	0.457975	2.262402
2016-03-06	-1.121869	-0.533223	0.627452	0.412665

In [6]:

Python

df.values

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > values < / span >

Out[6]:

Python

array([[ 1.18898298, -1.15011854, -0.70058776, 0.43906549], [-2.04154443, 1.08450747, -0.33544069, 1.96975377], [ 1.2041512 , -1.27771421, -0.23067059, 0.62906316], [-0.35235094, -1.70158492, -0.03429361, -0.33013878], [ 0.62760104, -0.29293918, 0.45797463, 2.26240237], [-1.12186945, -0.53322343, 0.6274522 , 0.41266481]])

array ( [ [ 1.18898298 , - 1.15011854 , - 0.70058776 , 0.43906549 ] ,

[ - 2.04154443 , 1.08450747 , - 0.33544069 , 1.96975377 ] ,

[ 1.2041512 , - 1.27771421 , - 0.23067059 , 0.62906316 ] ,

[ - 0.35235094 , - 1.70158492 , - 0.03429361 , - 0.33013878 ] ,

[ 0.62760104 , - 0.29293918 , 0.45797463 , 2.26240237 ] ,

[ - 1.12186945 , - 0.53322343 , 0.6274522 , 0.41266481 ] ] )

In [7]:

Python

# 使用字典来创建：key 为 DataFrame 的列；value 为对应列下的值 df = pd.DataFrame({ 'A': 1, 'B': pd.Timestamp('20160301'), 'C': range(4), 'D': np.arange(5, 9), 'E': 'text', 'F': ['AA', 'BB', 'CC', 'DD']}) df

# 使用字典来创建：key 为 DataFrame 的列；value 为对应列下的值

df = pd . DataFrame ( {

'A' : 1 ,

'B' : pd . Timestamp ( '20160301' ) ,

'C' : range ( 4 ) ,

'D' : np . arange ( 5 , 9 ) ,

'E' : 'text' ,

'F' : [ 'AA' , 'BB' , 'CC' , 'DD' ] } )

df

Out[7]:

	A	B	C	D	E	F
0	1	2016-03-01	0	5	text	AA
1	1	2016-03-01	1	6	text	BB
2	1	2016-03-01	2	7	text	CC
3	1	2016-03-01	3	8	text	DD

In [8]:

Python

df.dtypes

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > dtypes < / span >

Out[8]:

Python

A int64 B datetime64[ns] C int64 D int64 E object F object dtype: object

A int64

B datetime64 [ ns ]

C int64

D int64

E object

F object

dtype : object

In [9]:

Python

df.A

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > A < / span >

Out[9]:

Python

0 1 1 1 2 1 3 1 Name: A, dtype: int64

0 1

1 1

2 1

3 1

Name : A , dtype : int64

In [10]:

Python

type(df.A)

1	< span class = "nb" > type < / span > < span class = "p" > ( < / span > < span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > A < / span > < span class = "p" > ) < / span >

Out[10]:

Python

pandas.core.series.Series

1	pandas . core . series . Series

查看数据

In [11]:

Python

# 创建数据集 n_rows = 6 dates = pd.date_range('20160301', periods=n_rows) df = pd.DataFrame(np.random.randn(n_rows, 4), index=dates, columns=list('ABCD')) df

# 创建数据集

n_rows = 6

dates = pd . date_range ( '20160301' , periods = n_rows )

df = pd . DataFrame ( np . random . randn ( n_rows , 4 ) , index = dates , columns = list ( 'ABCD' ) )

df

Out[11]:

	A	B	C	D
2016-03-01	1.313419	0.826457	-1.574146	0.525008
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923

In [12]:

Python

df.shape

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > shape < / span >

Out[12]:

Python

(6, 4)

( 6 , 4 )

In [13]:

Python

df.head()

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > head < / span > < span class = "p" > ( ) < / span >

Out[13]:

	A	B	C	D
2016-03-01	1.313419	0.826457	-1.574146	0.525008
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656

In [14]:

Python

df.head(3)

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > head < / span > < span class = "p" > ( < / span > < span class = "mi" > 3 < / span > < span class = "p" > ) < / span >

Out[14]:

	A	B	C	D
2016-03-01	1.313419	0.826457	-1.574146	0.525008
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377

In [15]:

Python

df.tail()

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > tail < / span > < span class = "p" > ( ) < / span >

Out[15]:

	A	B	C	D
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923

In [16]:

Python

df.tail(2)

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > tail < / span > < span class = "p" > ( < / span > < span class = "mi" > 2 < / span > < span class = "p" > ) < / span >

Out[16]:

	A	B	C	D
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923

In [17]:

Python

df.index

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > index < / span >

Out[17]:

Python

DatetimeIndex(['2016-03-01', '2016-03-02', '2016-03-03', '2016-03-04', '2016-03-05', '2016-03-06'], dtype='datetime64[ns]', freq='D')

DatetimeIndex ( [ '2016-03-01' , '2016-03-02' , '2016-03-03' , '2016-03-04' ,

'2016-03-05' , '2016-03-06' ] ,

dtype = 'datetime64[ns]' , freq = 'D' )

In [18]:

Python

df.columns

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > columns < / span >

Out[18]:

Python

Index([u'A', u'B', u'C', u'D'], dtype='object')

1	Index ( [ u 'A' , u 'B' , u 'C' , u 'D' ] , dtype = 'object' )

In [19]:

Python

df.values

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > values < / span >

Out[19]:

Python

array([[ 1.31341924, 0.82645709, -1.57414606, 0.52500758], [ 0.02839742, -1.00934929, 0.32701362, 0.91824786], [-0.85700833, -1.68269525, 0.646229 , -0.18337746], [-1.11288513, -1.49166212, -1.11482404, -0.11561882], [-0.44871305, -0.16365107, -1.23029491, 1.10665563], [-0.26786722, 0.09231292, -0.48023763, -0.80992272]])

array ( [ [ 1.31341924 , 0.82645709 , - 1.57414606 , 0.52500758 ] ,

[ 0.02839742 , - 1.00934929 , 0.32701362 , 0.91824786 ] ,

[ - 0.85700833 , - 1.68269525 , 0.646229 , - 0.18337746 ] ,

[ - 1.11288513 , - 1.49166212 , - 1.11482404 , - 0.11561882 ] ,

[ - 0.44871305 , - 0.16365107 , - 1.23029491 , 1.10665563 ] ,

[ - 0.26786722 , 0.09231292 , - 0.48023763 , - 0.80992272 ] ] )

In [20]:

Python

df.describe()

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > describe < / span > < span class = "p" > ( ) < / span >

Out[20]:

	A	B	C	D
count	6.000000	6.000000	6.000000	6.000000
mean	-0.224110	-0.571431	-0.571043	0.240165
std	0.856808	0.983304	0.898112	0.734900
min	-1.112885	-1.682695	-1.574146	-0.809923
25%	-0.754935	-1.371084	-1.201427	-0.166438
50%	-0.358290	-0.586500	-0.797531	0.204694
75%	-0.045669	0.028322	0.125201	0.819938
max	1.313419	0.826457	0.646229	1.106656

In [21]:

Python

df.T

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > T < / span >

Out[21]:

	2016-03-01 00:00:00	2016-03-02 00:00:00	2016-03-03 00:00:00	2016-03-04 00:00:00	2016-03-05 00:00:00	2016-03-06 00:00:00
A	1.313419	0.028397	-0.857008	-1.112885	-0.448713	-0.267867
B	0.826457	-1.009349	-1.682695	-1.491662	-0.163651	0.092313
C	-1.574146	0.327014	0.646229	-1.114824	-1.230295	-0.480238
D	0.525008	0.918248	-0.183377	-0.115619	1.106656	-0.809923

In [22]:

Python

df.T.shape

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > T < / span > < span class = "o" > . < / span > < span class = "n" > shape < / span >

Out[22]:

Python

(4, 6)

( 4 , 6 )

In [23]:

Python

df.sort_index(axis=1, ascending=False) # sort_index()按照索引排序 #df.sort_index() #按照rowID进行排序，默认升序 #df.sort_index(axis=1,ascending=False) #按照columnID进行排序，设定为降序

df . sort_index ( axis = 1 , ascending = False )

# sort_index()按照索引排序

#df.sort_index() #按照rowID进行排序，默认升序

#df.sort_index(axis=1,ascending=False) #按照columnID进行排序，设定为降序

Out[23]:

	D	C	B	A
2016-03-01	0.525008	-1.574146	0.826457	1.313419
2016-03-02	0.918248	0.327014	-1.009349	0.028397
2016-03-03	-0.183377	0.646229	-1.682695	-0.857008
2016-03-04	-0.115619	-1.114824	-1.491662	-1.112885
2016-03-05	1.106656	-1.230295	-0.163651	-0.448713
2016-03-06	-0.809923	-0.480238	0.092313	-0.267867

In [24]:

Python

df.sort_values(by='C') # df.sort_values('mpg',ascending=False) # Order rows by values of a column (high to low). # 以每一列进行排序 ascending=False默认是降序,True就是升序

# df.sort_values('mpg',ascending=False)

# Order rows by values of a column (high to low).

# 以每一列进行排序 ascending=False默认是降序,True就是升序

Out[24]:

	A	B	C	D
2016-03-01	1.313419	0.826457	-1.574146	0.525008
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377

数据选择

In [25]:

Python

df['A'] # df[['A','B']] 取出两列

1 2	< span class = "n" > df < / span > < span class = "p" > [ < / span > < span class = "s1" > 'A' < / span > < span class = "p" > ] < / span > < span class = "c1" > # df[['A','B']] 取出两列</span>

Out[25]:

Python

2016-03-01 1.313419 2016-03-02 0.028397 2016-03-03 -0.857008 2016-03-04 -1.112885 2016-03-05 -0.448713 2016-03-06 -0.267867 Freq: D, Name: A, dtype: float64

2016 - 03 - 01 1.313419

2016 - 03 - 02 0.028397

2016 - 03 - 03 - 0.857008

2016 - 03 - 04 - 1.112885

2016 - 03 - 05 - 0.448713

2016 - 03 - 06 - 0.267867

Freq : D , Name : A , dtype : float64

In [26]:

Python

df[2:4]

1	< span class = "n" > df < / span > < span class = "p" > [ < / span > < span class = "mi" > 2 < / span > < span class = "p" > : < / span > < span class = "mi" > 4 < / span > < span class = "p" > ] < / span >

Out[26]:

	A	B	C	D
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619

In [27]:

Python

df['20160302':'20160305']

1	< span class = "n" > df < / span > < span class = "p" > [ < / span > < span class = "s1" > '20160302' < / span > < span class = "p" > : < / span > < span class = "s1" > '20160305' < / span > < span class = "p" > ] < / span >

Out[27]:

	A	B	C	D
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656

通过标签选择

In [28]:

Python

df.loc['20160301']

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > loc < / span > < span class = "p" > [ < / span > < span class = "s1" > '20160301' < / span > < span class = "p" > ] < / span >

Out[28]:

Python

A 1.313419 B 0.826457 C -1.574146 D 0.525008 Name: 2016-03-01 00:00:00, dtype: float64

A 1.313419

B 0.826457

C - 1.574146

D 0.525008

Name : 2016 - 03 - 01 00 : 00 : 00 , dtype : float64

In [29]:

Python

type(df.loc['20160301'])

1	< span class = "nb" > type < / span > < span class = "p" > ( < / span > < span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > loc < / span > < span class = "p" > [ < / span > < span class = "s1" > '20160301' < / span > < span class = "p" > ] ) < / span >

Out[29]:

Python

pandas.core.series.Series

1	pandas . core . series . Series

In [30]:

Python

df.loc[:, ['A', 'B']] # 取出 AB两列

df . loc [ : , [ 'A' , 'B' ] ]

# 取出 AB两列

Out[30]:

	A	B
2016-03-01	1.313419	0.826457
2016-03-02	0.028397	-1.009349
2016-03-03	-0.857008	-1.682695
2016-03-04	-1.112885	-1.491662
2016-03-05	-0.448713	-0.163651
2016-03-06	-0.267867	0.092313

In [31]:

Python

df.loc['20160301':'20160305', ['A', 'B']] # 取出某几行几列

df . loc [ '20160301' : '20160305' , [ 'A' , 'B' ] ]

# 取出某几行几列

Out[31]:

	A	B
2016-03-01	1.313419	0.826457
2016-03-02	0.028397	-1.009349
2016-03-03	-0.857008	-1.682695
2016-03-04	-1.112885	-1.491662
2016-03-05	-0.448713	-0.163651

In [32]:

Python

df.loc['2016-03-01', 'A']

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > loc < / span > < span class = "p" > [ < / span > < span class = "s1" > '2016-03-01' < / span > < span class = "p" > , < / span > < span class = "s1" > 'A' < / span > < span class = "p" > ] < / span >

Out[32]:

Python

1.3134192362700037

1	1.3134192362700037

In [33]:

Python

df.at[pd.Timestamp('2016-03-01'), 'A'] # df.at['2016-03-01', 'A'] will raise error

df . at [ pd . Timestamp ( '2016-03-01' ) , 'A' ]

# df.at['2016-03-01', 'A'] will raise error

Out[33]:

Python

1.3134192362700037

1	1.3134192362700037

通过位置选择

In [34]:

Python

df.iloc[1]

1	< span class = "n" > df < / span > < span class = "o" > . < / span > < span class = "n" > iloc < / span > < span class = "p" > [ < / span > < span class = "mi" > 1 < / span > < span class = "p" > ] < / span >

Out[34]:

Python

A 0.028397 B -1.009349 C 0.327014 D 0.918248 Name: 2016-03-02 00:00:00, dtype: float64

A 0.028397

B - 1.009349

C 0.327014

D 0.918248

Name : 2016 - 03 - 02 00 : 00 : 00 , dtype : float64

In [35]:

Python

df.iloc[2:5, 0:2] # 取出 2,3,4行,0,1,列

df . iloc [ 2 : 5 , 0 : 2 ]

# 取出 2,3,4行,0,1,列

Out[35]:

	A	B
2016-03-03	-0.857008	-1.682695
2016-03-04	-1.112885	-1.491662
2016-03-05	-0.448713	-0.163651

In [36]:

Python

df.iloc[1:5, :] # df.iloc[1:5] 这个也可以

df . iloc [ 1 : 5 , : ]

# df.iloc[1:5] 这个也可以

Out[36]:

	A	B	C	D
2016-03-02	0.028397	-1.009349	0.327014	0.918248
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656

In [37]:

Python

df.iloc[1, 1] # 取出一行一列的值

df . iloc [ 1 , 1 ]

# 取出一行一列的值

Out[37]:

Python

-1.009349292057921

1	- 1.009349292057921

In [38]:

Python

df.iat[1, 1] # 也可以达到同样的效果

df . iat [ 1 , 1 ]

# 也可以达到同样的效果

Out[38]:

Python

-1.009349292057921

1	- 1.009349292057921

布尔索引

In [39]:

Python

df[df.A < 0] # 取出 df.A小于0的值筛选

df [ df . A < 0 ]

# 取出 df.A小于0的值筛选

Out[39]:

	A	B	C	D
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923

In [40]:

Python

df[df > 0]

1	< span class = "n" > df < / span > < span class = "p" > [ < / span > < span class = "n" > df < / span > < span class = "o" >> < / span > < span class = "mi" > 0 < / span > < span class = "p" > ] < / span >

Out[40]:

	A	B	C	D
2016-03-01	1.313419	0.826457	NaN	0.525008
2016-03-02	0.028397	NaN	0.327014	0.918248
2016-03-03	NaN	NaN	0.646229	NaN
2016-03-04	NaN	NaN	NaN	NaN
2016-03-05	NaN	NaN	NaN	1.106656
2016-03-06	NaN	0.092313	NaN	NaN

In [41]:

Python

df['tag'] = ['a'] * 2 + ['b'] * 2 + ['c'] * 2 #添加一列

df [ 'tag' ] = [ 'a' ] * 2 + [ 'b' ] * 2 + [ 'c' ] * 2

#添加一列

In [42]:

Python

df

1	< span class = "n" > df < / span >

Out[42]:

	A	B	C	D	tag
2016-03-01	1.313419	0.826457	-1.574146	0.525008	a
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c

In [43]:

Python

df[df.tag.isin(['a', 'c'])] # 筛选通过 isin

df [ df . tag . isin ( [ 'a' , 'c' ] ) ]

# 筛选通过 isin

Out[43]:

	A	B	C	D	tag
2016-03-01	1.313419	0.826457	-1.574146	0.525008	a
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c

修改数据

In [44]:

Python

df

1	< span class = "n" > df < / span >

Out[44]:

	A	B	C	D	tag
2016-03-01	1.313419	0.826457	-1.574146	0.525008	a
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c

In [45]:

Python

s = pd.Series(np.arange(6), index=pd.date_range('20160301', periods=6)) s

s = pd . Series ( np . arange ( 6 ) , index = pd . date_range ( '20160301' , periods = 6 ) )

s

Out[45]:

Python

2016-03-01 0 2016-03-02 1 2016-03-03 2 2016-03-04 3 2016-03-05 4 2016-03-06 5 Freq: D, dtype: int64

2016 - 03 - 01 0

2016 - 03 - 02 1

2016 - 03 - 03 2

2016 - 03 - 04 3

2016 - 03 - 05 4

2016 - 03 - 06 5

Freq : D , dtype : int64

In [46]:

Python

df['E'] = s

1	< span class = "n" > df < / span > < span class = "p" > [ < / span > < span class = "s1" > 'E' < / span > < span class = "p" > ] < / span > < span class = "o" >= < / span > < span class = "n" > s < / span >

In [47]:

Python

df

1	< span class = "n" > df < / span >

Out[47]:

	A	B	C	D	tag	E
2016-03-01	1.313419	0.826457	-1.574146	0.525008	a	0
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a	1
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b	2
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b	3
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c	4
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c	5

In [48]:

Python

df.loc['20160301', 'A'] = 0.2 # df.['20160301', 'A'] = 0.2 will not have effect

df . loc [ '20160301' , 'A' ] = 0.2

# df.['20160301', 'A'] = 0.2 will not have effect

In [49]:

Python

df

1	< span class = "n" > df < / span >

Out[49]:

	A	B	C	D	tag	E
2016-03-01	0.200000	0.826457	-1.574146	0.525008	a	0
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a	1
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b	2
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b	3
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c	4
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c	5

In [50]:

Python

df.at[pd.Timestamp('20160301'), 'A'] = 0.4

df . at [ pd . Timestamp ( '20160301' ) , 'A' ] = 0.4

In [51]:

Python

df

1	< span class = "n" > df < / span >

Out[51]:

	A	B	C	D	tag	E
2016-03-01	0.400000	0.826457	-1.574146	0.525008	a	0
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a	1
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b	2
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b	3
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c	4
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c	5

In [52]:

Python

df.iat[0, 0] = 0.6 df

df . iat [ 0 , 0 ] = 0.6

df

Out[52]:

	A	B	C	D	tag	E
2016-03-01	0.600000	0.826457	-1.574146	0.525008	a	0
2016-03-02	0.028397	-1.009349	0.327014	0.918248	a	1
2016-03-03	-0.857008	-1.682695	0.646229	-0.183377	b	2
2016-03-04	-1.112885	-1.491662	-1.114824	-0.115619	b	3
2016-03-05	-0.448713	-0.163651	-1.230295	1.106656	c	4
2016-03-06	-0.267867	0.092313	-0.480238	-0.809923	c	5

In [53]:

Python

df.loc[:, 'A'] = np.arange(10, 16) df

df . loc [ : , 'A' ] = np . arange ( 10 , 16 )

df

Out[53]:

	A	B	C	D	tag	E
2016-03-01	10	0.826457	-1.574146	0.525008	a	0
2016-03-02	11	-1.009349	0.327014	0.918248	a	1
2016-03-03	12	-1.682695	0.646229	-0.183377	b	2
2016-03-04	13	-1.491662	-1.114824	-0.115619	b	3
2016-03-05	14	-0.163651	-1.230295	1.106656	c	4
2016-03-06	15	0.092313	-0.480238	-0.809923	c	5

In [54]:

Python

df2 = df.loc[:, ['B', 'C']].copy() df2[df2 > 0] = -df2 df2

df2 = df . loc [ : , [ 'B' , 'C' ] ] . copy ( )

df2 [ df2 > 0 ] = - df2

df2

Out[54]:

	B	C
2016-03-01	-0.826457	-1.574146
2016-03-02	-1.009349	-0.327014
2016-03-03	-1.682695	-0.646229
2016-03-04	-1.491662	-1.114824
2016-03-05	-0.163651	-1.230295
2016-03-06	-0.092313	-0.480238

zeropython 微信公众号 5868037 QQ号 5868037@qq.com QQ邮箱