首先注意一个坑
train数据和test数据如果分别对一些特征进行编码,将会导致数目不一,解决办法就是先合并所有数据(前提是数据量少,虽然这么做是不太合理的,因为真正预测的时候,预测数据是未知的。数据量大的话, 目前没办法),然后统一进行one-hot编码,然后再使用pandas分片将数据分开。
one-hot编码
最新推荐文章于 2024-07-18 13:15:32 发布
首先注意一个坑
train数据和test数据如果分别对一些特征进行编码,将会导致数目不一,解决办法就是先合并所有数据(前提是数据量少,虽然这么做是不太合理的,因为真正预测的时候,预测数据是未知的。数据量大的话, 目前没办法),然后统一进行one-hot编码,然后再使用pandas分片将数据分开。