Python机器学习及实践——进阶篇:模型实用技巧(特征提升)
所谓特征抽取,就是逐条将原始数据转化为特征向量的形式,这个过程同时涉及对数据特征的量化表示;而特征筛选则进一步,在高维度、已量化的特征向量中选择对指定任务更有效的特征组合,进一步提升模型性能。
1.特征抽取
原始数据的种类有很多种,除了数字化的信号数据(声纹、图像),还有大量符号化的文本。然而,我们无法直接将符号化的文本本身用于计算任务,而是需要通过某些处理手段,预先将文本量化为特征向量。
有些用符号表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。这时,使用DictVectorizer对特征进行抽取和向量化。
DictVectorizer对使用字典存储的数据进行特征抽取与向量化
#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File : FeatureExtraction.py
@Author: Xinzhe.Pang
@Date : 2019/7/23 20:59
@Desc :
"""
# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)
measurements