这段文字主要介绍了处理缺失值的两种方法:
**1. 使用最频繁值填充缺失值:**这种方法会将数据集中出现频率最高的类别用于填充缺失值。例如,在文中给出的例子中,square
是出现频率最高的类别,因此缺失值会被填充为square
。
**2. 使用missing
字符串填充缺失值:**这种方法将缺失值视为一个独立的类别,并用missing
字符串进行填充。
作者认为第二种方法更可取,因为它将缺失值视为一个独立的特征,并通过独热编码将其转化为一个新的特征列。这与“缺失值指示器”的概念类似,能够更有效地反映数据中的缺失信息。
文章最后强调,缺失值处理是一个复杂的话题,需要根据具体情况选择合适的方法,而不仅仅是使用简单的填充方法。
需要填充分类特征的缺失值? 两种选择:1. 填充最常见的数值2. 填充“缺失”的值,将其视为一个独立的类别