一、数据的特征工程
1.1 定义
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性
特征处理是指通过特定的统计方法(数学方法)将数据转换成算法要求的数据
1.2 意义
直接影响模型的预测结果
1.3 安装
可以学习一下Scikit-learn库
安装方法:创建一个基于python3的虚拟环境
mkvirtualenv -p /sur/bin/python3.5 ml3
在ubuntu 的虚拟环境中运行以下命令:
pip3 install Scikit-learn
然后通过导入命令查看是否可以使用:
import sklearn
1.4 数据的特征抽取
特征抽取针对的是非连续型数据
特征抽取对文本等进行特征值化(为了计算机更好地去理解数据)
sklearn特征抽取API: sklearn.feature_extraction
1. 字典特征抽取:对字典数据进行特征值化
类:sklearn.feature_extraction.DictVectorizer
2. 文本特征抽取:对文本数据进行特征值化
类:sklearn.feature_extraction.text.CountVectorizer
3. 对中文文本特征值化: 需要对中文进行分词才能详细地进行特征值化,可以使用jieba分词工具,
安装方式:
pip3 install jieba
使用方式:
import jieba
jieba.cut("我的名字叫甘小鹿")
4. 根据词语占比判断文章类型: TF-IDF思想
TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高, 并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 能力,适合用来分类。
TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
类:sklearn.feature_extraction.text.TfidfVectorizer