用逻辑回归预测在线广告点击率
1. 分类特征转换为数值特征
在处理数据时,常常会遇到分类特征,而许多机器学习算法只能处理数值特征,因此需要将分类特征转换为数值特征。常见的转换方法有独热编码(One-Hot Encoding)和序数编码(Ordinal Encoding)。
1.1 独热编码
独热编码将具有 k 个可能值的分类特征转换为 k 个二进制特征,每个二进制特征表示对应可能值的存在或缺失。例如,对于特征 [Tech, Fashion, Fashion, Sports, Tech, Tech, Sports] ,使用独热编码后会得到相应的二进制表示。
可以使用 scikit-learn 中的 DictVectorizer 进行独热编码,示例代码如下:
from sklearn.feature_extraction import DictVectorizer
X_dict = [{'interest': 'tech', 'occupation': 'professional'},
{'interest': 'fashion', 'occupation': 'student'},
{'interest': 'fashion', 'occupation': 'professional'},
{'interest': 'sports', 'occupation': 'stu
超级会员免费看
订阅专栏 解锁全文
32

被折叠的 条评论
为什么被折叠?



