文本特征与数据预处理-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_62262691/article/details/126924887

TfidfVectorizer

TfidfVectorizer

作用：统计中文词出现的频率，频率最大的词即为该文本重要的词语

进行文本特征抽取：

data4=['我是陈冠希,我现在遇到了一帮很坏很坏的人。','我需要你们转帐300块,不，是300亿啊！']
data_newnew=[]
for sent in data4:
    data_newnew.append(cut_words(sent))
transfer=TfidfVectorizer()
data_final=transfer.fit_transform(data_newnew)
print(data_final.toarray())
print("特征名字:",transfer.get_feature_names_out())

特征预处理 processing：

定义:

通过一些转换函数将特征数据转化成更加符合算法模型的数据

归一化 minmaxscaler：

定义：

通过对原始数据进行变换把数据映射到0，1之间

作用：

特征的单位或大小相差较大，使得方差偏移较多，容易支配目标结果

计算原理：

代码实现：

#定义：通过一些转换函数将特征数据转化成更加符合算法模型的数据
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

'''归一化：通过对原始数据进行变换把数据映射到0，1之间'''
data=pd.read_csv("归一化数据")
data=data.iloc[:,:3]
print(data)
#2.实例一个转换器类
transfer=MinMaxScaler(feature_range=(1,2)) #将数据进行调节，默认在0，1之间
#3.调用fit_transform
data_new=transfer.fit_transform(data)
print(data_new)

缺点：

健壮性较差，容易受到较大值和较小值的影响，只适合小规模数据的操作

标准化 StandardScale

定义：

通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内

计算原理：

代码实现：

data=pd.read_csv("归一化数据")
data=data.iloc[:,:3]
print(data)
#2.实例一个转换器类
transfer=StandardScaler()#将数据进行调节，默认在0，1之间
#3.调用fit_transform
data_new=transfer.fit_transform(data)
print(data_new)