import pandas as pd
import numpy as np
data = pd.read_excel('data.xls')
data
#表的列属性
data.columns
#表的大小
data.shape
#对于某一列属性,是字典嵌套字典类型的,想取其中,某一个key的value,用apply:
data['better_price0'] = data['price'].apply(lambda x:eval(x)['better'].get('price0',-1))
#如果某一price0不存在,将会赋值为-1,接下来就是选择不为-1的那部分数据
data = data[data['better_price0']!=-1]
# #
#apply的另一处用法,用于切分字符串,split的用法,这个是当时间是:xxxx年xx月
data['year'] = data['time'].apply(lambda x:x.split('年')[0])
data['months'] = data['time'].apply(lambda x:x.split('年')[1])
data['month'] = data['months'].apply(lambda x:x.split('月')[0])
#如果时间:20150206...的时候,用下面:
data['year'] = data['time'].apply(lambda x:x[0:4])
#...
#在是用x.split()的时候,要注意x要是字符串类型
data['time'] &#