学习笔记,备忘录。。。
来源:特征工程到底是什么?
离散特征值
离散特征值有两种数据类型:
- 取值大小有意义:eg.尺寸:L,XL,XXL
- 将大小值通过字典进行存储
- 取值大小无意义:eg.颜色:红、黄、蓝
-
使用get_dummies()方法处理
pandas.get_dummies(data,prefix=None,prefix_sep=’‘,dummy_na=False,columns=None,drop_first=False)
案例
以个人信息为例:
import pandas as pd
data=pd.read_csv('./text.csv',sep=' ',encoding='GBK')

这篇博客探讨了自然语言处理中离散特征值的处理问题,包括学历和性别的数据类型分析。在数据预处理阶段,对于有高低之分的学历数据,采取特定方法转化为连续值,而性别作为无序类别,处理方式有所不同。
最低0.47元/天 解锁文章
6836

被折叠的 条评论
为什么被折叠?



