pandas-读取数据并显示,pd.read_csv,df.tail(5),df.shape,df.shape

dirty-data.csv 里边的数据内容

员工ID,姓名,部门,入职日期,年龄,月薪,月度业绩,考勤天数,学历,在职状态
1001,张三,技术部,2020-03-15,28,8500,12000,22,本科,是
1002,李四,市场部,2021/05/20,35,9800,--,20,硕士,是
1003,王五,,2022-01-08,,7600,8500,18,大专,否
1004,赵六,销售部,2020.11.30,42,12000,25000,25,本科,1
1005,,技术部,2023-07-12,26,6800,NaN,23,本科,是
1006,孙七,市场部,2021-09-05,31,8900,9800,-5,硕士,是
1007,周八,销售部,,33,10500,18000,21,大专,否
1008,吴九,技术部,2022/06/18,29,9200,15000,24,n/a,是
1009,郑十,行政部,2023-02-20,58,7300,6500,19,本科,是
1010,钱十一,市场部,2020-12-03,36,11000,13000,22,博士,否
1011,冯十二,销售部,2021.04.15,,9500,21000,26,本科,是
1012,陈十三,技术部,2022-08-25,27,7900,10000,23,大专,0
1013,褚十四,,2023-03-10,34,8200,9200,,本科,是
1014,卫十五,行政部,2021/10/18,45,6500,5800,17,硕士,是
1015,蒋十六,销售部,2020-06-22,38,13500,30000,24,本科,否
1016,沈十七,市场部,2022.03.05,29,8600,7500,21,大专,是
1017,韩十八,技术部,,32,9800,14000,22,本科,是
1018,杨十九,销售部,2023-05-18,40,11500,23000,25,硕士,是
1019,朱二十,行政部,2021-02-12,52,7800,6200,19,本科,否
1020,秦二十一,市场部,2022-11-08,33,9100,8800,20,博士,是

读取数据

# 读取数据
import pandas as pd
df = pd.read_csv('./dirty-data.csv')
# 显示csv 里边的所有的数据
df

员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022.0本科
11002李四市场部2021/05/2035.09800--20.0硕士
21003王五NaN2022-01-08NaN7600850018.0大专
31004赵六销售部2020.11.3042.0120002500025.0本科1
41005NaN技术部2023-07-1226.06800NaN23.0本科
51006孙七市场部2021-09-0531.089009800-5.0硕士
61007周八销售部NaN33.0105001800021.0大专
71008吴九技术部2022/06/1829.092001500024.0NaN
81009郑十行政部2023-02-2058.07300650019.0本科
91010钱十一市场部2020-12-0336.0110001300022.0博士
101011冯十二销售部2021.04.15NaN95002100026.0本科
111012陈十三技术部2022-08-2527.079001000023.0大专0
121013褚十四NaN2023-03-1034.082009200NaN本科
131014卫十五行政部2021/10/1845.06500580017.0硕士
141015蒋十六销售部2020-06-2238.0135003000024.0本科
151016沈十七市场部2022.03.0529.08600750021.0大专
161017韩十八技术部NaN32.098001400022.0本科
171018杨十九销售部2023-05-1840.0115002300025.0硕士
181019朱二十行政部2021-02-1252.07800620019.0本科
191020秦二十一市场部2022-11-0833.09100880020.0博士
# nrows 只读取3行数据
df = pd.read_csv('./dirty-data.csv',nrows=3,)
df
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022本科
11002李四市场部2021/05/2035.09800--20硕士
21003王五NaN2022-01-08NaN7600850018大专
# nrows 只读取3行数据 usecols=[0,1,2] 选择 列的下标 是0,1,2的列
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2])
df
员工ID姓名部门
01001张三技术部
11002李四市场部
21003王五NaN
# header=None 表示标题也算数据的一部分
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None)
df
012
0员工ID姓名部门
11001张三技术部
21002李四市场部
# skiprows=1 跳过第一行,再取3条数据
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None,skiprows=1)
df
012
01001张三技术部
11002李四市场部
21003王五NaN

显示数据


df = pd.read_csv('./dirty-data.csv')
# 显示前5行数据
df.head(5)
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
01001张三技术部2020-03-1528.085001200022.0本科
11002李四市场部2021/05/2035.09800--20.0硕士
21003王五NaN2022-01-08NaN7600850018.0大专
31004赵六销售部2020.11.3042.0120002500025.0本科1
41005NaN技术部2023-07-1226.06800NaN23.0本科
# 显示后5行数据
df.tail(5)
员工ID姓名部门入职日期年龄月薪月度业绩考勤天数学历在职状态
151016沈十七市场部2022.03.0529.08600750021.0大专
161017韩十八技术部NaN32.098001400022.0本科
171018杨十九销售部2023-05-1840.0115002300025.0硕士
181019朱二十行政部2021-02-1252.07800620019.0本科
191020秦二十一市场部2022-11-0833.09100880020.0博士
# 显示数据有 几行几列
df.shape
(20, 10)
# 显示数据所有的列名
df.columns.values
array(['员工ID', '姓名', '部门', '入职日期', '年龄', '月薪', '月度业绩', '考勤天数', '学历',
       '在职状态'], dtype=object)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值