当下python在数据处理以及量化分析数据挖掘上使用越发广泛,本文将针对python中pandas包下的DataFrame这种数据类型的的使用进行详细说明,以及其在数据处理的同等情况下SQL中的对比,话不多说,开整!!!
关键字:pandas、DataFrame、SQL
1、关于数据表列的筛选
有DataFrame(也就是二维数据表)data:
使用
data=DataFrame(np.arange(9).reshape(3,3),columns=['a','b','c'])
语句即可生成该DataFrame
data :
a b c
0 0 1 2
1 3 4 5
2 6 7 8
如果我们只取data的a列 直接使用一个切片操作(注:对列进行选取切片操作是两层中括号):
data[['a']]
--------->
0 0
1 3
2 6
对应的SQL语句为:
select a from data
如果我们要取a和b两个字段同样是切片操作:
data[['a','b']]
------>
a b
0 0 1
1 3 4
2 6 7
对应的SQL语句为:
select a,b from data
首先我们在此先创建两个DataFrame:
公司基本信息数据表
companydata=DataFrame({'ID':['aa','bb','cc'],
'name':['公司A','公司B','公司C&