机器学习系列---数据的特征工程&&降维(特征选择/主成分分析)&&Kaggle instacart例 &&机器学习算法分类

一、数据的特征工程

 

1.1 定义

  特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性

  特征处理是指通过特定的统计方法(数学方法)将数据转换成算法要求的数据

1.2 意义

  直接影响模型的预测结果

1.3 安装

  可以学习一下Scikit-learn库
  安装方法:创建一个基于python3的虚拟环境

mkvirtualenv -p /sur/bin/python3.5 ml3

在ubuntu 的虚拟环境中运行以下命令:

pip3 install Scikit-learn

然后通过导入命令查看是否可以使用:

import sklearn

1.4 数据的特征抽取

  特征抽取针对的是非连续型数据

  特征抽取对文本等进行特征值化(为了计算机更好地去理解数据)

  sklearn特征抽取API: sklearn.feature_extraction

  1. 字典特征抽取:对字典数据进行特征值化
类:sklearn.feature_extraction.DictVectorizer

  2. 文本特征抽取:对文本数据进行特征值化
类:sklearn.feature_extraction.text.CountVectorizer
  3. 对中文文本特征值化: 需要对中文进行分词才能详细地进行特征值化,可以使用jieba分词工具,

安装方式:

pip3 install jieba

使用方式:

import jieba
jieba.cut("我的名字叫甘小鹿")

  4. 根据词语占比判断文章类型: TF-IDF思想

  TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的概率高, 并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分 能力,适合用来分类。

  TF-IDF作用:用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
类:sklearn.feature_extraction.text.TfidfVectorizer

1.5 数据的特征处理

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值