【人工智能】NLP自然语言处理-第三节 简单的统计

本文探讨了如何使用Python的NLTK库进行简单的统计分析,以识别文本中的关键词汇和表达。通过频率分布,我们可以找到文本中最常出现的词,进一步了解文本的主题。同时,文章介绍了如何筛选长词和检测词语搭配,以深入挖掘文本信息。

在这里插入图片描述
1 简介
在本节中,我们重新拾起是什么让一个文本不同与其他文本这样的问题, 并使用程序自动寻找特征词汇和文字表达。
正如在上一节中那样,可以通过复制它们到 Python 解释器中来尝试Python 语言的新特征。
在这之前,你可能会想通过预测下面的代码的输出来检查你对上一节的理解。你可以使用解释器来检查你是否正确。如果你不确定如何做这个任务, 你最好在继续之前复习一下上一节的内容。
在这里插入图片描述
2 频率分布
我们如何能自动识别文本中最能体现文本的主题和风格的词汇?试想一下,要找到一本书中使用最频繁的 50 个词你会怎么做?
在这里插入图片描述
上表被称为频率分布,它告诉我们在文本中的每一个词项的频率。一般情况下, 它能计数任何观察得到的事件。这是一个“分布”因为它告诉我们文本中词标识符的总数是如何分布在词项中的。因为我们经常需要在语言处理中使用频率分布,NLTK 中内置了它们。
【例3 - 1 】使用 Freq Dist 寻找《白鲸记》中最常

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值