机器学习系列---数据的特征工程&&降维（特征选择/主成分分析）&&Kaggle instacart例 &&机器学习算法分类

Yulu_Gan

于 2020-11-18 20:30:23 发布

阅读量757

点赞数

文章标签：算法 python 机器学习人工智能数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Yulu_Gan/article/details/109629368

版权

一、数据的特征工程

1.1 定义

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的模型准确性

特征处理是指通过特定的统计方法（数学方法）将数据转换成算法要求的数据

1.2 意义

直接影响模型的预测结果

1.3 安装

可以学习一下Scikit-learn库
安装方法：创建一个基于python3的虚拟环境

mkvirtualenv -p /sur/bin/python3.5 ml3

在ubuntu 的虚拟环境中运行以下命令:

pip3 install Scikit-learn

然后通过导入命令查看是否可以使用:

import sklearn

1.4 数据的特征抽取

特征抽取针对的是非连续型数据

特征抽取对文本等进行特征值化（为了计算机更好地去理解数据）

sklearn特征抽取API： sklearn.feature_extraction

1. 字典特征抽取：对字典数据进行特征值化
类：sklearn.feature_extraction.DictVectorizer

2. 文本特征抽取：对文本数据进行特征值化
类：sklearn.feature_extraction.text.CountVectorizer
3. 对中文文本特征值化：需要对中文进行分词才能详细地进行特征值化，可以使用jieba分词工具，

安装方式：

pip3 install jieba

使用方式：

import jieba
jieba.cut("我的名字叫甘小鹿")

4. 根据词语占比判断文章类型： TF-IDF思想

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
类：sklearn.feature_extraction.text.TfidfVectorizer

1.5 数据的特征处理

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。