项目场景:
- 使用pandas读取数据集为dataframe。
- 删除其中指定列的值为‘value’的行。
- 将待处理的每一列单独取出。例如:
col_1 = data.loc[:,'col_1']
- 对数值为离散型的列执行label编码。例如:
le = LabelEncoder() col_1= le.fit_transform(col_1) col_1= pd.DataFrame(col_1,columns=['col_1'])
- 使用pd.concat()将所有列拼接在一起组成新的数据集。
问题描述
出现了不该出现的NaN值,并且行索引不连续且最后一行的索引对不上结果的行数4603657,也对不上原始数据集的行数4603658。
正确情况下的结果的行数应为3706366行。并且在单独查看每列的行数时,每列都为3706366行。
col_1 col_2 ... col_19 col_20
0 1.525880e+09 1840724.0 ... 0.0 0.0
3 1.52