【Python机器学习及实践】进阶篇：模型实用技巧（特征提升）_怎么将原文件转化为数据特征文件-优快云博客

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/97034729

Python机器学习及实践——进阶篇：模型实用技巧（特征提升）

所谓特征抽取，就是逐条将原始数据转化为特征向量的形式，这个过程同时涉及对数据特征的量化表示；而特征筛选则进一步，在高维度、已量化的特征向量中选择对指定任务更有效的特征组合，进一步提升模型性能。

1.特征抽取

原始数据的种类有很多种，除了数字化的信号数据（声纹、图像），还有大量符号化的文本。然而，我们无法直接将符号化的文本本身用于计算任务，而是需要通过某些处理手段，预先将文本量化为特征向量。

有些用符号表示的数据特征已经相对结构化，并且以字典这种数据结构进行存储。这时，使用DictVectorizer对特征进行抽取和向量化。

DictVectorizer对使用字典存储的数据进行特征抽取与向量化

#!/usr/bin/env python
# -*- coding: utf-8 -*-
"""
@File  : FeatureExtraction.py
@Author: Xinzhe.Pang
@Date  : 2019/7/23 20:59
@Desc  : 
"""
# 定义一组字典列表，用来表示多个数据样本（每个字典代表一个数据样本）
measurements