nltk.book实战

词语索引视图显示一个指定单词的每一次出现,连同一些上下文一起显示。
函数名concordance

在这里插入图片描述
函数名similar

在这里插入图片描述
函数common_contexts允许我们研究两个或两个以上的词共同的上下文,如monstro
us和very。我们必须用方括号和圆括号把这些词括起来,中间用逗号分割。

在这里插入图片描述

判断词在文本中的位置:从文本开头算起在它前面有多少词。这个位置信息可以用离散图表示。每一个竖线代表一个单词,每一行代表整个文本
绘制图形之前先导入numpy和matplotlib包
text4.dispersion_plot([“citizens”, “democracy”, “freedom”, “duties”, “America”])

在这里插入图片描述

函数名generate用来产生一些随机文本
我们使用FreqDist寻找《白鲸记》中最常见的 50个词。可以产生一个这些词汇的累积频率图。用fdist1.plot(50,cumulative=True)产生图

在这里插入图片描述

f.plot(50,cumulative = True)

在这里插入图片描述

那些只出现一次的低频词我们用f.hapaxes()查看它们

`nltk.downloader.download` 和 `nltk.download` 实际上是同一个功能的不同调用方式,它们都用于从 NLTK 的官方资源库中下载所需的语料库、词典或其他工具包。不过两者在使用场景和灵活性上有细微差别: ### 1. 函数来源角度 - **`nltk.download`** 是 NLTK 提供给用户的高层封装函数,直接通过导入 nltk 即可用作简单快捷地获取数据之目的。 ```python import nltk nltk.download('punkt') # 下载 punkt 分句模型 ``` - **`nltk.downloader.download`** 则更接近底层实现机制,属于 Downloader 类内部的一个成员方法,当需要自定义更多选项或对下载过程有额外控制时会显得更为强大灵活。 ```python from nltk.downloader import Downloader downloader = Downloader() downloader.download('stopwords') # 使用Downloader实例化后的download方法同样作用于停用词表的拉取操作 ``` ### 2. 参数支持方面 虽然二者都能接收类似 package name 等基础参数来确定要取得的目标名称外,在高级设定下差异开始显现出来: - 对于 `nltk.download()`, 它主要接受一些常用简化形式参数比如 string 类型标识单个项目或者 list 表示批量项目名字符串数组; - 直观易懂适合一般开发者快速部署应用环境所需资料无需深入研究细节; - 而转向 `nltk.downloader.download()` ,除了上述基本能力之外还开放了众多细粒度调节开关例如指定镜像站点地址(ms) , 设定最大重试次数(retry),以及针对不同操作系统调整存储位置(download_dir)等功能特性使得适应复杂需求成为可能。 总结起来就是:普通情况推荐利用方便简洁的 `nltk.download()` 来满足日常开发测试阶段的需求; 若遇到特殊定制场合则考虑采用功能完备全面覆盖各类特殊情况设计思路下的 `nltk.downloader.download`.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值