机器学习中的特征工程与朴素贝叶斯分类
1. 网格搜索与模型验证
网格搜索提供了更多的选项,包括指定自定义评分函数、并行计算、进行随机搜索等功能。可以参考相关示例或Scikit - Learn的网格搜索文档获取更多信息。
在模型验证和超参数优化方面,我们开始探索相关概念,重点关注偏差 - 方差权衡的直观方面,以及在将模型拟合到数据时它是如何起作用的。特别是,在调整参数时,使用验证集或交叉验证方法对于避免更复杂/灵活模型的过拟合至关重要。
2. 特征工程概述
在实际使用机器学习时,特征工程是一个重要步骤。因为现实世界中的数据很少是整齐的 [n_samples, n_features] 格式的数值数据,特征工程就是将关于问题的各种信息转化为可用于构建特征矩阵的数字,这个过程常被称为向量化。下面介绍几种常见的特征工程任务。
3. 分类特征处理
分类数据是一种常见的非数值数据。例如,在探索房价数据时,除了“价格”和“房间数量”等数值特征外,还有“社区”这样的分类信息。
data = [
{'price': 850000, 'rooms': 4, 'neighborhood': 'Queen Anne'},
{'price': 700000, 'rooms': 3, 'neighborhood': 'Fremont'},
{'price': 650000, 'rooms': 3, 'neighborhood': 'Wallingford'},
{'price': 600000
超级会员免费看
订阅专栏 解锁全文
1063

被折叠的 条评论
为什么被折叠?



