pd.get_dummies 是 Pandas 库中的一个函数,用于将分类变量转换为“哑变量”或“独热编码”(One-Hot Encoding),这是处理分类数据的一种常用技术。这种编码方式可以使得模型能够更好地处理非数值变量。
基本用法
- 转换单个列:
将 DataFrame 中的一列转换为哑变量。
import pandas as pd
df = pd.DataFrame({'color': ['red', 'green', 'blue']})
dummies = pd.get_dummies(df, columns=['color'])
print(dummies)
输出结果:
color_blue color_green color_red
0 0 0 1
1 0 1 0
2 1 0 0
- 转换多个列:
同时转换 DataFrame 中的多个列。
df = pd.DataFrame({
'color': ['red', 'green', 'blue'], 'size': ['S', 'M'