今天在学习机器学习时候发现了error
一直提示我无法transform
首先我们要明确测试集的新类别的占比应该是比较小的,如果占比很大可能模型的效果会比较差也可能是在分割测试集和训练集的时候没有做好
解决这个问题有两种方法
1.第一种是将测试集和训练集合并这样来进行独热编码这样可以保证所有的类别都出现在里面
如果还不行的话
这一种直接
data=train+test
2.可以试试第二种
OneHotEncoder(handle_unknown = "ignore")
忽略未知的值这样也能够正常运行
本文探讨了在机器学习中遇到的测试集中新类别占比过大导致的编码问题,提供了合并训练集进行编码和使用OneHotEncoder处理未知值的两种解决方案。
4608

被折叠的 条评论
为什么被折叠?



