numpy和pandas的一些函数和方法
导入库:
import numpy as np
import pandas as pd
1. 读取csv或xlsx数据,生成DataFrame数据格式
代码:
f = open(r'data/example_data_1/stormofswords.csv')
df = pd.read_csv(f)
2. np.union1d求数组并集,返回一个list格式数据
代码:
test = np.union1d([-1, 0, 1], [-2, 0, 2])
print(test)
结果为:
[-2 -1 0 1 2]
3. loc和iloc选取特定列
假设df是一个dataframe,列名为A B C D:
A B C D
0 ss 小红 8
1 aa 小明 d
4 f f
6 ak 小紫 7
dataframe里的属性不是指定的,空值默认为NA。
选取标签为A和C的列,并且选完的对象类型还是dataframe:
df = df.loc[ : ,['A', 'C']]
df = df.iloc[ : ,[0, 2]]
选取标签为C并且只取前两行,并且选完的对象类型还是dataframe:
df = df.loc[0:2, ['A', 'C']]
df = df.iloc[0:2, [0, 2]]
loc
和iloc
的区别:loc是根据dataframe的具体标签选取列,而iloc是根据标签所在的位置,从0开始计数。
注:切片之后类型依旧是dataframe,不能直接进行加减乘除等操作的
比如dataframe的一列是数学成绩(shuxue),另一列为语文成绩(yuwen),现在需要求两门课程的总和,可以使用:
df['shuxue'] + df['yuwen'] # 选取完之后类型为series
4. 创建DataFrame格式数据
代码:
matrix = pd.DataFrame(0, index=label, columns=label)