黄聪:Python+NLTK自然语言处理学习(二):常用方法(similar、common_contexts、generate)...

本文深入探讨了文本处理与生成技术的核心概念,包括相似性识别、关键词密度计算及生成文章的方法。通过实例展示了如何使用相关函数进行操作,并分析了结果背后的原理。

一、similar

用来识别文章中和搜索词相似的词语,可以用在搜索引擎中的相关度识别功能中。

text1.similar("monstrous")

查询出了text1中与monstrous相关的所有词语:

二、common_contexts

用来识别2个关键词相似的词语。

text2.common_contexts(["monstrous","very"])

三、generate

用来自动生成文章。

text3.generate()

四、len

可以用于判断重复词密度

from __future__ import division
len(text3)
/ len(set(text3))

图中显示 正文字数/不重复词语字数 = 16,说明有15/16是无效字符。

五、count

可以用于判断关键词密度。

text3.count('smote') / len(text3)

转载于:https://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值