在传统机器学习中,对于类别型特征有许多encode方法:
其中,Label Encoder是最简单的一种encode方法,并在sklearn.preprocessing中有实现方法,目的是将类别型特征统一转化成0-len(类别性特征)范围的数字。
from sklearn.preprocessing import LabelEncoder
lbe = LabelEncoder()
train = ["paris", "paris", "tokyo", "amsterdam"]
test = ["tokyo", "tokyo", "paris"]
lbe.fit(train).transform(test)
array([2, 2, 1])