dirty-data.csv 里边的数据内容
员工ID,姓名,部门,入职日期,年龄,月薪,月度业绩,考勤天数,学历,在职状态
1001,张三,技术部,2020-03-15,28,8500,12000,22,本科,是
1002,李四,市场部,2021/05/20,35,9800,--,20,硕士,是
1003,王五,,2022-01-08,,7600,8500,18,大专,否
1004,赵六,销售部,2020.11.30,42,12000,25000,25,本科,1
1005,,技术部,2023-07-12,26,6800,NaN,23,本科,是
1006,孙七,市场部,2021-09-05,31,8900,9800,-5,硕士,是
1007,周八,销售部,,33,10500,18000,21,大专,否
1008,吴九,技术部,2022/06/18,29,9200,15000,24,n/a,是
1009,郑十,行政部,2023-02-20,58,7300,6500,19,本科,是
1010,钱十一,市场部,2020-12-03,36,11000,13000,22,博士,否
1011,冯十二,销售部,2021.04.15,,9500,21000,26,本科,是
1012,陈十三,技术部,2022-08-25,27,7900,10000,23,大专,0
1013,褚十四,,2023-03-10,34,8200,9200,,本科,是
1014,卫十五,行政部,2021/10/18,45,6500,5800,17,硕士,是
1015,蒋十六,销售部,2020-06-22,38,13500,30000,24,本科,否
1016,沈十七,市场部,2022.03.05,29,8600,7500,21,大专,是
1017,韩十八,技术部,,32,9800,14000,22,本科,是
1018,杨十九,销售部,2023-05-18,40,11500,23000,25,硕士,是
1019,朱二十,行政部,2021-02-12,52,7800,6200,19,本科,否
1020,秦二十一,市场部,2022-11-08,33,9100,8800,20,博士,是
读取数据
import pandas as pd
df = pd.read_csv('./dirty-data.csv')
df
| 员工ID | 姓名 | 部门 | 入职日期 | 年龄 | 月薪 | 月度业绩 | 考勤天数 | 学历 | 在职状态 |
|---|
| 0 | 1001 | 张三 | 技术部 | 2020-03-15 | 28.0 | 8500 | 12000 | 22.0 | 本科 | 是 |
|---|
| 1 | 1002 | 李四 | 市场部 | 2021/05/20 | 35.0 | 9800 | -- | 20.0 | 硕士 | 是 |
|---|
| 2 | 1003 | 王五 | NaN | 2022-01-08 | NaN | 7600 | 8500 | 18.0 | 大专 | 否 |
|---|
| 3 | 1004 | 赵六 | 销售部 | 2020.11.30 | 42.0 | 12000 | 25000 | 25.0 | 本科 | 1 |
|---|
| 4 | 1005 | NaN | 技术部 | 2023-07-12 | 26.0 | 6800 | NaN | 23.0 | 本科 | 是 |
|---|
| 5 | 1006 | 孙七 | 市场部 | 2021-09-05 | 31.0 | 8900 | 9800 | -5.0 | 硕士 | 是 |
|---|
| 6 | 1007 | 周八 | 销售部 | NaN | 33.0 | 10500 | 18000 | 21.0 | 大专 | 否 |
|---|
| 7 | 1008 | 吴九 | 技术部 | 2022/06/18 | 29.0 | 9200 | 15000 | 24.0 | NaN | 是 |
|---|
| 8 | 1009 | 郑十 | 行政部 | 2023-02-20 | 58.0 | 7300 | 6500 | 19.0 | 本科 | 是 |
|---|
| 9 | 1010 | 钱十一 | 市场部 | 2020-12-03 | 36.0 | 11000 | 13000 | 22.0 | 博士 | 否 |
|---|
| 10 | 1011 | 冯十二 | 销售部 | 2021.04.15 | NaN | 9500 | 21000 | 26.0 | 本科 | 是 |
|---|
| 11 | 1012 | 陈十三 | 技术部 | 2022-08-25 | 27.0 | 7900 | 10000 | 23.0 | 大专 | 0 |
|---|
| 12 | 1013 | 褚十四 | NaN | 2023-03-10 | 34.0 | 8200 | 9200 | NaN | 本科 | 是 |
|---|
| 13 | 1014 | 卫十五 | 行政部 | 2021/10/18 | 45.0 | 6500 | 5800 | 17.0 | 硕士 | 是 |
|---|
| 14 | 1015 | 蒋十六 | 销售部 | 2020-06-22 | 38.0 | 13500 | 30000 | 24.0 | 本科 | 否 |
|---|
| 15 | 1016 | 沈十七 | 市场部 | 2022.03.05 | 29.0 | 8600 | 7500 | 21.0 | 大专 | 是 |
|---|
| 16 | 1017 | 韩十八 | 技术部 | NaN | 32.0 | 9800 | 14000 | 22.0 | 本科 | 是 |
|---|
| 17 | 1018 | 杨十九 | 销售部 | 2023-05-18 | 40.0 | 11500 | 23000 | 25.0 | 硕士 | 是 |
|---|
| 18 | 1019 | 朱二十 | 行政部 | 2021-02-12 | 52.0 | 7800 | 6200 | 19.0 | 本科 | 否 |
|---|
| 19 | 1020 | 秦二十一 | 市场部 | 2022-11-08 | 33.0 | 9100 | 8800 | 20.0 | 博士 | 是 |
|---|
df = pd.read_csv('./dirty-data.csv',nrows=3,)
df
| 员工ID | 姓名 | 部门 | 入职日期 | 年龄 | 月薪 | 月度业绩 | 考勤天数 | 学历 | 在职状态 |
|---|
| 0 | 1001 | 张三 | 技术部 | 2020-03-15 | 28.0 | 8500 | 12000 | 22 | 本科 | 是 |
|---|
| 1 | 1002 | 李四 | 市场部 | 2021/05/20 | 35.0 | 9800 | -- | 20 | 硕士 | 是 |
|---|
| 2 | 1003 | 王五 | NaN | 2022-01-08 | NaN | 7600 | 8500 | 18 | 大专 | 否 |
|---|
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2])
df
| 员工ID | 姓名 | 部门 |
|---|
| 0 | 1001 | 张三 | 技术部 |
|---|
| 1 | 1002 | 李四 | 市场部 |
|---|
| 2 | 1003 | 王五 | NaN |
|---|
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None)
df
| 0 | 1 | 2 |
|---|
| 0 | 员工ID | 姓名 | 部门 |
|---|
| 1 | 1001 | 张三 | 技术部 |
|---|
| 2 | 1002 | 李四 | 市场部 |
|---|
df = pd.read_csv('./dirty-data.csv',nrows=3,usecols=[0,1,2],header=None,skiprows=1)
df
| 0 | 1 | 2 |
|---|
| 0 | 1001 | 张三 | 技术部 |
|---|
| 1 | 1002 | 李四 | 市场部 |
|---|
| 2 | 1003 | 王五 | NaN |
|---|
显示数据
df = pd.read_csv('./dirty-data.csv')
df.head(5)
| 员工ID | 姓名 | 部门 | 入职日期 | 年龄 | 月薪 | 月度业绩 | 考勤天数 | 学历 | 在职状态 |
|---|
| 0 | 1001 | 张三 | 技术部 | 2020-03-15 | 28.0 | 8500 | 12000 | 22.0 | 本科 | 是 |
|---|
| 1 | 1002 | 李四 | 市场部 | 2021/05/20 | 35.0 | 9800 | -- | 20.0 | 硕士 | 是 |
|---|
| 2 | 1003 | 王五 | NaN | 2022-01-08 | NaN | 7600 | 8500 | 18.0 | 大专 | 否 |
|---|
| 3 | 1004 | 赵六 | 销售部 | 2020.11.30 | 42.0 | 12000 | 25000 | 25.0 | 本科 | 1 |
|---|
| 4 | 1005 | NaN | 技术部 | 2023-07-12 | 26.0 | 6800 | NaN | 23.0 | 本科 | 是 |
|---|
df.tail(5)
| 员工ID | 姓名 | 部门 | 入职日期 | 年龄 | 月薪 | 月度业绩 | 考勤天数 | 学历 | 在职状态 |
|---|
| 15 | 1016 | 沈十七 | 市场部 | 2022.03.05 | 29.0 | 8600 | 7500 | 21.0 | 大专 | 是 |
|---|
| 16 | 1017 | 韩十八 | 技术部 | NaN | 32.0 | 9800 | 14000 | 22.0 | 本科 | 是 |
|---|
| 17 | 1018 | 杨十九 | 销售部 | 2023-05-18 | 40.0 | 11500 | 23000 | 25.0 | 硕士 | 是 |
|---|
| 18 | 1019 | 朱二十 | 行政部 | 2021-02-12 | 52.0 | 7800 | 6200 | 19.0 | 本科 | 否 |
|---|
| 19 | 1020 | 秦二十一 | 市场部 | 2022-11-08 | 33.0 | 9100 | 8800 | 20.0 | 博士 | 是 |
|---|
df.shape
(20, 10)
df.columns.values
array(['员工ID', '姓名', '部门', '入职日期', '年龄', '月薪', '月度业绩', '考勤天数', '学历',
'在职状态'], dtype=object)