场景描述
类别型特征(Categorical Feature)
主要是指性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。
知识点
序号编码(Ordinal Encoding)
、独热编码(One-hot Encoding)
、二进制编码(Binary Encoding)
问题:在对数据进行预处理时,应该怎样处理类别型特征?
分析与解答
-
序号编码(Ordinal Encoding)
序号编码通常用于处理类别间具有大小关系的数据。例如成绩,可以分为低、中、高三档,并且存在"高>中>低"的排序关系。序号编码会按照大小关系对类别型特征赋予一个数值ID</