《用Python进行自然语言处理》笔记2

这篇博客主要介绍了Python进行自然语言处理中的计算语言统计,包括频率分布、细粒度选择词、词语搭配(bigrams)、计数以及相关的决策与控制。通过FreqDist计算词频,hapaxes统计唯一词,plot展示趋势,关注长词以获取更多特征,使用bigrams和collocation_list找出双连词,以及利用条件过滤进行文本分析。

计算语言:简单的统计

一、频率分布

⑴ FreqDist(test)

将文本名称作为参数,形成字典,得到每个标识符的频率分布


>>> fd1=FreqDist(text1)
>>> fd1
FreqDist({
   
   ',': 18713, 'the': 13721, '.': 6862, 'of': 6536, 'and': 6024, 'a': 4569, 'to': 4542, ';': 4072, 'in': 3916, 'that': 2982, ...})
>>> fd1['is']   //查找'is'出现的次数
1695

⑵ hapaxes()

对只出现一次词的统计

 fd1.hapaxes()
['Herman', 'Melville', ']', 'ETYMOLOGY', 'Late', 'Consumptive', 'School', 'threadbare', 'lexicons', 'mockingly', 'flags', 'mortality', 'signification', '...]

如何把握文本的主题和风格:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值