文本变量特征提取与清洗
1. 提取文本变量的TF-IDF值
TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于信息检索与文本挖掘的常用加权技术。下面将介绍如何提取至少出现在5%文档中的单词的TF-IDF值。
步骤:
- 加载必要的库和数据集 :
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.datasets import fetch_20newsgroups
import pandas as pd
# 加载20 Newsgroup文本数据集
data = fetch_20newsgroups(subset='train')
df = pd.DataFrame(data.data, columns=['text'])
- 数据预处理 :
- 去除标点符号和数字 :
# 去除标点符号
df["text"] = df['text'].str.replace('[^\w\s]','')
# 去除数字
df['text'] = df['text'].str.replace('\d+', '', r
超级会员免费看
订阅专栏 解锁全文
992

被折叠的 条评论
为什么被折叠?



