数据预处理(DataFrame篇)
1.如何创建DataFrame
2.如何读取DataFrame的值,读一行/列、读多行/列
3.如何对DataFrame赋值
4.如何对DataFrame插入一(多)行/列
5.如何删除DataFrame的一(多)行/列
1.#将列表转换为DataFrame
import pandas as pd
data = pd.DataFrame(要转换的数据名称)
2.创建DataFrame
1.利用字典创建
import pandas as pd
import numpy as np
list1 = ['a','b','c','d']
list2 = [5,6,7,8]
data = {"one":list1,"two":list2}
df = pd.DataFrame(data,index = [1,2,3,4])
#告诉你什么格式都可以往里写
data={"one":np.random.randn(4),
"two":np.linspace(1,4,4),"three":['zhangsan','李四',999,0.1]}
df=pd.DataFrame(data,index=[1,2,3,4])
此处的data里直接将 列表的形式写进去就可。
设置索引 df.index
df.index=['a','b','c','d']
如果不设置索引,则默认为 0开始,设置的话就按照设置的来。
重设索引 reset_index
用于将索引还原成默认值,即从0开始步长为1的数组。
df.reset_index(drop=True)
2用数组创建
#创建一个2*2数组
a = ([1,2],[3,4])
b = np.array(a)
pd.DataFrame(b)
#2.用随机数生成的数组
data1 = np.random.randn(6,4)
data1
pd.DataFrame(data1,columns=list('ABCD'),index = [1,2,3,4,5,6])
用随机数生成的数组。
查数据
1. 按列读取:
df.A #读取名字为A 的列
2.df['列名'] #和df.A 效果一样,没有外面的表格
df[['列名']] #变成表格的形式。
df[['列名1','列名2','列名n']] #多输出几列变成表格的形式。
3.df.iloc[:]
3.取列,变的时行,比如 取第一行-第5行的所有列
df.iloc[0:6] (左闭右开)
df.loc['abc','123'] 不过 loc里面写的是行的名称
df['列名']['行名']