sklearn-01-特征工程：特征提取

最新推荐文章于 2023-02-10 15:32:08 发布

原创

最新推荐文章于 2023-02-10 15:32:08 发布 · 置顶 · 456 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #特征工程

这篇博客介绍了如何使用sklearn进行特征工程，涵盖了从字典类型特征的one-hot编码，到文本特征抽取，包括词频统计和Tfidf方法。特别是针对中文文本，通过jieba库进行了分词处理，并讨论了逆文档频率(Tfidf)在文本特征提取中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 字典类型的特征抽取（结果是one-hot编码）

API：

from sklearn.feature_extraction import DictVectorizer

语法：

dv  = DictVectorizer(sparse=False)   #实例化
dv.fit_transform()		# 字典 --> one hot编码 
dv.inverse_transform()	#  one hot编码 --> 字典
dv..get_feature_names()  # 获取特征的名称

例子

# 字典特征抽取
from sklearn.feature_extraction import DictVectorizer
def dict_extraciton():
    data_dict = [{
   
   'city': '北京','temperature':32},
    {
   
   'city': '上海','temperature':22},
    {
   
   'city': '深圳','temperature':17}]
    dict_vectorizer  = DictVectorizer(sparse=False)
    one_hot_data  = dict_vectorizer.fit_transform(data_dict)
    print(dict_vectorizer.get_feature_names())
    print(one_hot_data)
    # 转回字典类型
    mydict = dict_vectorizer.inverse_transform(one_hot_data)
    print(mydict)
dict_extraciton()

['city=上海', 'city=北京', 'city=深圳', 'temperature']
[[ 0.  1.  0. 32.]
 [ 1.  0.  0. 22.]
 [ 0.  0.

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

来杯柠檬茶

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python sklearn-03：特征提取方法基础知识

vk的读书笔记

08-26

1506

特征提取方法基础知识，将不同类型的数据转换成特征向量方便机器学习算法研究 1.分类变量特征提取:分类数据的独热编码方法，并用scikit-learn的DictVectorizer类实现 2.机器学习问题中常见的文档特征向量: >>1)词库模型将文档转换成词块的频率构成的特征向量，用CountVectorizer类计算基本单词频次的二进制特征向量。 >>2)...

sklearn-数据预处理与特征工程

weixin_58975360的博客

03-28

1999

1 数据预处理 Preprocessing & Impute preprocessing.MinMaxScaler数据归一化 MinMaxScaler有一个重要参数， feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。使用 feature_range控制参数范围当X中的特征数量非常多的时候，fit会报错并表示，数据量太大了我计算不了，此时使用partial_fit作为训练接口，scaler = scaler.partial_fit(data) .

参与评论您还未登录，请先登录后发表或查看评论

十分钟上手sklearn 特征提取 常用模型交叉验证

01-30

十分钟上手sklearn 特征提取 常用模型交叉验证. 主要内容包括: PCA算法 LDA算法线性回归逻辑回归朴素贝叶斯决策树 SVM 神经网络 KNN算法

Sklearn特征提取

我的博客

01-14

510

模块 sklearn.feature_extraction 可用于提取符合机器学习算法支持的特征，比如文本和图片。注意特征特征提取与特征选择有很大的不同：前者包括将任意数据（如文本或图像）转换为可用于机器学习的数值特征。后者是将这些特征应用到机器学习中。 >>> measurements = [ ... {'city': 'Dubai', 'temperature': 33.}, ... {'city': 'London', 'temperature': 12.}, .

机器学习框架sklearn之特征提取

David_house的博客

02-10

731

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。（1）什么是特征工程特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。意义：会直接影响机器学习的效果（2）特征工程的位置与数据处理的比较sklearn：用来做特征工程（对于特征的处理提供了强大的接口）pandas：数据清洗、数据处理（一个数据读取非常方便以及基本的处理格式的工具）

sklearn特征抽取

lichengxiang的博客

02-04

753

一。可用数据集 1.scikit-learn 2.UCI 3.Kaggle 二。特征工程是什么三。sklearn特征抽取 1.字典特征抽取 2.文本特征抽取 ①.案例：对三段话进行特征值化 ②.TfidfVectorizer语法 3.数据的特征处理 ①.归一化 ②.标准化 ③.缺失值三。代码汇总

PyPI 官网下载 | sklearn-pandas-2.0.4.tar.gz

01-29

这在处理单列的数据变换，如提取特征或者进行简单的统计计算时非常便捷。使用`sklearn-pandas`的一个典型场景是在数据预处理阶段。首先，你可以用`pandas`加载和清洗数据，然后利用`sklearn-pandas`的转换器将...

sklearn-audio-classification：对RAVDESS数据集上的音频分类进行深入分析。使用多种ML技术和MLP进行特征工程，超参数优化，模型评估和交叉验证

02-04

《sklearn-cookbook-zh》：Scikit-learn实战指南

- 数据预处理：包括数据清洗、特征提取、数据转换等，这些是机器学习中不可或缺的步骤。 - 分类：介绍如何使用Scikit-learn中的分类器，如支持向量机(SVM)、决策树、随机森林等。 - 回归分析：探讨如何运用Scikit-...

C#人脸识别入门篇--提取人脸特征值及人脸识别

热门推荐

feishixin的专栏

08-19

3万+

人脸检测之后如何进行人脸识别，人脸识别的算法复杂，如何能够在C#中使用，本文章将在人脸检测的基础上，讲解如何使用虹软人脸识别SDK完成人脸识别的功能的全过程。

特征工程的特征提取实例

11-09

因为整个项目包中包括一个python3.7的lib库，文件太大，所以需要自己将linear.py和放到PyCharm项目中，有问题可以问我

『sklearn学习』《sklearn》第三章：特征提取与处理

L聪记博客

12-29

1706

### --------------------------------------------------- ### # ------ 特征提取与处理 ------ # ------ 分类变量特征提取 ------ from sklearn.feature_extraction import DictVectorizer one_hot_encoder = DictVector

Scikit-learn学习系列 | 3. sklearn特征提取方法汇总（包含字典、文本、图像的特征提取）

Clichong

05-02

4121

如有错误，恳请指出。以下内容整理自专栏：博主“文火冰糖的硅基工坊”的专栏——机器学习与scikit-learn，对部分的文章的简化与整理。文章目录1. 特征工程的介绍2. 特征提取的方法3. 字典中提取特征4. 文本中提取特征4.1 特征提取方法：词频向量编码(CountVectorizer)英语词频向量中文词频向量4.2 特征提取方法：权重向量编码(CountVectorizer)4.3 特征提取方法：哈希向量编码(HashingVectorizer)5. 图像中提取特征单通道补丁提取多通道补丁提.

特征工程-特征提取

mengxianglong123的博客

06-02

615

将任意数据（如文本或图像）转换为可用于机器学习的数字特征 2. 字典特征提取 作用：对字典数据进行特征值化我们对以下数据进行特征提取 注意观察没有加上sparse=False参数的结果这个结果并不是我们想要看到的，所以加上参数，得到想要的结果：之前在学习pandas中的离散化的时候，也实现了类似的效果。我们把这个处理数据的技巧叫做”one-hot“编码对于特征当中存在类别信息的我们都会做one-hot编码处理作用：对文本数据进行特征值化我们对以下数据进行特征提取 返回结果：问题:如果我们将数据替换

sklearn特征的提取(上）

微信号：RunsenLiu

03-18

958

首先必须知道什么是特征工程什么是特征工程特征工程是通过对原始数据的处理和加工，将原始数据属性通过处理转换为数据特征的过程，属性是数据本身具有的维度，特征是数据中所呈现出来的某一种重要的特性，通常是通过属性的计算，组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言，好的数据以及特征往往是一个性能优秀模型的基础。那么如何提取好的特征将是本文主要内容我们将...