Python自然语言处理-学习笔记(1)——nltk入门常用函数

本文介绍了使用NLTK库进行文本处理的基本操作,包括上下文搜索、词汇频次统计、二元词语提取等实用功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

from nltk.book import *   #首先导入包

1.   text.concordance(word)   # 搜索word的上下文

2.   text.similar(word)   #还有哪些词出现在相似的上下文中

3.   text.common_contexts([word1,word2…])  #搜索两个或以上word共用的上下文

4.   text.dispersion_plot([word1, word2,])  #这个函数是用离散图 表示 语料中word 出现的位置序列表示. 

离散图

5.   fdist1 = FreqDist(text)    #频率分布

      fdist1.hapaxes()   #统计只出现一次的词

6.   bigrams(list)   #提取二元词语(双连词)

      text.collocations()   #找到频繁的双连词

6. generate()函数:

随机产生文本中的一段文本,每次运行它,输出的文本都会不同。

7.defaultdict() : 默认字典,可赋初值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值