使用TF-IDF算法进行文本聚类分析

在自然语言处理(NLP)和文本分析领域,将文本数据转换为可操作的数值格式是至关重要的。TF-IDF(Term Frequency-Inverse Document Frequency)是一种广泛使用的文本向量化方法,它能够反映词语在文档中的重要性。在这篇文章中,我将介绍如何使用TF-IDF向量化文本数据,并应用DBSCAN算法对文本数据进行聚类分析。

简介:

TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的文本分析方法,用于将文本数据转换为数值型特征,以便机器学习算法可以处理。TF-IDF结合了词频(TF)和逆文档频率(IDF),以反映词语在文档集合中的重要性。

词频(TF)

词频(Term Frequency)是指某个词语在一篇文档中出现的次数。词语出现的频率越高,它在该文档中的重要性就越高。然而,仅使用词频作为特征会偏向于那些长文档,因为长文档通常会包含更多的词语。

逆文档频率(IDF)

逆文档频率(Inverse Document Frequency)是指包含该词语的文档总数的倒数。这个指标减少了常见词语的权重,因为常见词语在很多文档中都会出现,而罕见词语只在少数文档中出现,因此更加重要。

TF-IDF计算

TF-IDF值是TF和IDF的乘积,计算公式如下: TF-IDF(t,d)=TF(t,d)×log(df(t)N​) 其中:

代码示例

数据读取与TF-IDF转换

我们将从一个名为task2_1.txt的文件中读取文本数据。这个文件应该包含若干篇文章,每篇文章占一行。
 

from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

# 读取文件
inFile = open(r".\task2_1.txt", 'r', encoding='utf-8')
corpus = inFile.readlines()

# 将文本内容转换为TF-IDF向量
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

# 获取特征名称(词汇表)
wordlist = vectorizer.get_feature_names_out()

TF-IDF矩阵转换为DataFrame

为了更方便地操作和分析TF-IDF矩阵,我们将其转换为pandas DataFrame

# 将TF-IDF矩阵转换为DataFrame
df = pd.DataFrame(tfidf.toarray(), columns=wordlist)

提取每篇文章的前5个关键词

接下来,我们将提取每篇文章中排名前5的关键词。

# 提取每篇文章中排名前5的关键词
for i in range(len(corpus)):
    article_tfidf = df.iloc[i]
    top5 = article_tfidf.nlargest(5)
    print(f"文章 {i + 1} 的前5个关键词:")
    print(top5)
    print()


运行结果

总结

通过这篇文章,我们介绍了如何使用TF-IDF向量化文本数据,TF-IDF能够反映词语在文档中的重要性

### 使用 TF-IDF 和 K-Means 进行文本聚类分析 #### 数据预处理 为了有效应用TF-IDF和K-Means进行中文文本聚类,数据预处理阶段至关重要。首先需对原始语料执行分词操作,并去除无意义的停用词[^3]。 ```python import jieba from sklearn.feature_extraction.stop_words import ENGLISH_STOP_WORDS def preprocess(texts): stop_words = set(ENGLISH_STOP_WORDS).union(set(['的', '了', '在', ...])) # 添加自定义中文停用词表 segmented_texts = [] for text in texts: words = [word for word in jieba.cut(text) if word not in stop_words and word.strip()] segmented_texts.append(' '.join(words)) return segmented_texts ``` #### 特征提取 通过`CountVectorizer`将经过清洗后的文本转换成词袋模型表示形式;再利用`TfidfTransformer`计算每篇文档中各词汇项权重得分,从而获得最终特征矩阵作为后续输入给定至K均值算法前准备好的向量空间表达式[^2]。 ```python from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer vectorizer = CountVectorizer() transformer = TfidfTransformer() tfidf_matrix = transformer.fit_transform(vectorizer.fit_transform(segmented_texts)) ``` #### 构建与训练模型 设定簇的数量后初始化KMeans实例对象并调用fit()函数完成整个流程中的核心环节——即依据之前得到的数据集来拟合最优解参数下的质心位置分布情况以及相应归属类别标签分配工作[^1]。 ```python from sklearn.cluster import KMeans num_clusters = 5 # 假设要分成五个群组 km_model = KMeans(n_clusters=num_clusters) clusters_labels = km_model.fit_predict(tfidf_matrix) ``` #### 结果解释 最后一步是对所得结果加以解读说明,包括但不限于查看各个cluster内部成员构成状况及其代表性样本摘要描述等内容。 ```python for i in range(num_clusters): cluster_members_indices = clusters_labels == i print(f"\nCluster {i}:") sample_size = min(sum(cluster_members_indices), 5) # 取最多五条记录展示 samples = np.array(original_texts)[cluster_members_indices][:sample_size] for smp in samples: print(smp[:70]) # 截取部分字符串便于阅读理解 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回顶部