sklearn 特征工程(总结)

该博客介绍了特征工程在文本分类中的应用,包括字典特征抽取、jieba分词和tf-idf文本抽取。同时,讲解了数据预处理的两种方法——归一化和标准化,并展示了主成分分析(PCA)在数据降维中的使用。这些技术对于机器学习模型的性能至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、特征工程

    字典特征抽取

from sklearn.feature_extraction import DictVectorizer  # 特征抽取的包    

 

  文本特征抽取和jieba分词

文本的特征抽取,比如说文档分类、垃圾邮件分类和新闻分类。文本分类是通过词是否存在、以及词的概率(重要性)来表示。

如果想要统计中文某些词出现的次数,就要先对中文进行分词。jieba

    tf-idf文本抽取

是一种用于信息检索与文本挖掘的常用的加权技术,这种统计方法,用以评估一字一词在一份文件中的重要程度。

from sklearn.feature_extraction.text import TfidfVectorizer    

特征工程~归一化

归一化

X=(x-min)/(max-min)

其中,max和min分别是某列的最大值和最小值,x为归一化之前的值。

from sklearn.preprocessing import MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

scaler =MinMaxScaler()

data =[

    [180,75,35],[175,80,17],[159,50,46],[149,79,45]  

]

result =scaler.fit_transform(data)

print(result)

标准化

from sklearn.preprocessing import StandardScaler #标准化

scaler=StandardScaler()

result=scaler.fit_transform(data)

print(result)

特征工程-数据降维

主成分分析

主成分分析,是一种统计统计方法。通过正交变换将一组可能存在相关性变量的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。

主成分需要记住两点:

  • 降维后的特征之间协方差为0,表示各个特征关系是独立的,每个特征都不会随着其他特征变化而有规律的变化。

  • 每个特征的方差应尽可能大。

from sklearn.decomposition import PCA

def pca_decomposition():

    pca=PCA(n_components=2)#1、0~1之间的,维度的比例-1;2、整形:具体的维度,必须为min(n_samples,n_features)以内

    result =pca.fit_transform(

    [

        [4,2,76,9],

        [1,192,1,56],

        [34,5,20,90]

    ])

    print(result)

pca_decomposition()

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值