pd.get_dumpies()方法分别调用导致训练集和测试集维度不同(未对齐)
问题
利用sklearn进行数据预处理,sklearn对列的排序很敏感,因此如果训练数据集和测试数据集未对齐,则结果将是无意义的。如果分类在训练数据中与测试数据具有不同数量的值,则可能发生这种情况。
解决方法
思路
我们可以使用aligen命令确保住居的编码方式与训练数据相同,align命令确保列在两个数据集中以相同的顺序显示(它使用列名来标识每个数据集中的哪些列对齐。)参数join ='left...
原创
2018-11-23 13:17:05 ·
2925 阅读 ·
0 评论