自然语言处理与建模

本文介绍Python的NLTK库在文本预处理中的应用,包括词干抽提、词形还原,以及TF-IDF算法的实现。NLTK库自带语料库、词性分类库,具备强大的社区支持。TF-IDF算法用于衡量词在文档中的重要性,平衡常见词与罕见词的权重。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

文本预处理流水线:在这里插入图片描述
在这里插入图片描述
Python的NLTK库介绍和使用
NLTK:

  • 官网地址:http://www.nltk.org/

  • Python上注明的自然语言处理库,具有如下优点:

  • 自带语料库,词性分类库

  • 自带分类,分词等功能

  • 强大的社区支持

  • 还有N多的简单版wrapper

NLTK实现词干的抽提(stemming)

  • from nltk.stem.porter import PorterStemmer
  • from nltk.stem.lancaster import LancasterStemmer
  • from nltk.stem import SnonballStemmer

在这里插入图片描述

NLTK实现 Lemma:还原到单词最初的形式
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize('dogs')

更好地实现Lemma
没有POS Tag,默认时NN(名词)
wordnet_lemmatizer.lemmatize(‘are’)
wordnet_lemmatizer.Lemmatize(‘is’,pos=v)
在这里插入图片描述
TF-IDF
TF:Term Frequencey,衡量一个term在文档中出现得多频繁
TF(t)=(t出现在文档中的次数)/(文档中的term总数)
IDF:inverse Document Frequency,衡量一个term由多重要。
有些词出现的很多,但没啥作用,比如“is”,‘and’,‘the’,之类的。为了平衡,我们把罕见词的重要性(weight)提高,把常见词的重要性降低。
IDF=In(文档总数/含有t的文档总数)
TF-IDF=TF*IDF
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值