黄聪：Python+NLTK自然语言处理学习（二）：常用方法（similar、common_contexts、generate）...

最新推荐文章于 2024-09-28 12:14:16 发布

转载最新推荐文章于 2024-09-28 12:14:16 发布 · 90 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html

文章标签：

#人工智能 #python

本文深入探讨了文本处理与生成技术的核心概念，包括相似性识别、关键词密度计算及生成文章的方法。通过实例展示了如何使用相关函数进行操作，并分析了结果背后的原理。

一、similar

用来识别文章中和搜索词相似的词语，可以用在搜索引擎中的相关度识别功能中。

text1.similar("monstrous")

查询出了text1中与monstrous相关的所有词语：

二、common_contexts

用来识别2个关键词相似的词语。

text2.common_contexts(["monstrous","very"])

三、generate

用来自动生成文章。

text3.generate()

四、len

可以用于判断重复词密度

from __future__ import division
len(text3) / len(set(text3))

图中显示正文字数/不重复词语字数 = 16，说明有15/16是无效字符。

五、count

可以用于判断关键词密度。

text3.count('smote') / len(text3)

转载于:https://www.cnblogs.com/huangcong/archive/2011/08/29/2158054.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33916256

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Python 网络编程入门——用 Socket 做一个风花雪月服务器

Python作业辅导员 - 天元浪子

11-26

8044

理解 TCP/IP，是程序员从初阶到高阶的必由之路。然而，现在的程序员几乎没有多少实战机会接触到网络编程比较底层的部分。究其原因，一方面是因为流行的网络引擎框架提供了很好的封装，另一个原因是应用层面上多以 http/ftp 等协议为主，程序员不需要从 Socket 做起了。

nltk库中book模块的函数使用

m0_57990731的博客

07-18

704

from nltk.book import * text1.concordance("monstrous") text1.similar("monstrous")

参与评论您还未登录，请先登录后发表或查看评论

NLTK——NLP编程的基础工具

power0405hf的专栏

07-06

2338

1.NLTK入门1.下载NLTK，可用pip install nltk，anaconda本身已经有NLTK了，可直接使用。2.下载NLTK的范例文本，import nltk nltk.download() #下载Collections下的book 3.使用基本函数3.1 concordance 查找指定词from nltk.book import * text1.concordance("monst

nltk入门函数解释（concordance,similar,common_contexts）

Daisymanman的博客

07-29

4003

#from nltk.book import *; #导入NTLK包中book中的所有的例子模型 #print(text1); #输出book中text1的相关信息 #text1.concordance("monstrous"); #在text1中找到特定单词并显示出上下文 #print("monstrous in text1 similar to")

通过源码发现nltk.Text.similar相似度衡量标准

ybdesire的专栏

02-10

2786

1. 如何用nltk来找到text中相似的word 如果我们想搜索某一篇文章（text）中相似的词（word），可以使用nltk这个强大的NLP模块。下面以nltk自带的shakespeare数据集来做示例。第一次使用nltk，需要先运行下面的代码来下载shakespeare数据集。 import nltk nltk.download('shakespeare') 然后，我们就可以加载shak...

Python的坑（9） -- 上下文/context

Henry1991back的博客

07-10

1517

1. 知乎：编程中什么是「Context(上下文)」？ https://www.zhihu.com/question/26387327 2. Vamei:Python深入02 上下文管理器 http://www.cnblogs.com/vamei/archive/2012/11/23/2772445.html 3. 伯乐在线：Python中的上下文管理器

黄聪：WordPress后台添加侧边栏菜单（WP教程add_menu_page）

HandsomeOhJie的博客

07-07

1326

本文是WordPress企业建站系列教程的第三篇文章，需要说明的是，如果想你学习这个企业建站的系列教程，需要你有一点点的WordPress主题或PHP开发基础，没有基础的也可以依样画葫芦，出错了可以给我留言。在本系列教程的第一篇文章 WordPress后台删除不需要的侧边栏菜单中，我已经详细介绍了如何删除WordPress后台不必要的菜单，现在我再给大家介绍一下如果往WordPr...

python单词个数统计_Python 统计文本中单词的个数

weixin_39766014的博客

11-21

2986

1.读文件，通过正则匹配def statisticWord():line_number = 0words_dict = {}with open (r'D:\test\test.txt',encoding='utf-8') as a_file:for line in a_file:words = re.findall(r'&#\d+;|&#\d+;|&\w+;',line)for word ...

wordpress精仿Ipc.me主题

12-13

二、安装与使用 1. 下载主题文件：首先从压缩包“wordpress145”中提取出主题文件，通常是一个ZIP格式的文件。 2. 安装主题：登录WordPress后台，进入“外观”->“主题”页面，点击“添加新主题”，然后上传刚刚解压...

全球营销论文提纲汇总.docx

10-05

4. 瑶的研究以GODVIA巧克力品牌为例，讨论新兴市场如何利用原产国优势经营国际品牌，采用文献研究和问卷调查相结合的方法。 5. 游佳榕的论文关注诺基亚与联想的合作，分析技术革新和市场潮流对于跨国公司战略的重要...

自然语言处理NLTK篇

最新发布

qq_49786473的博客

09-28

1047

NLTK（Natural Language Toolkit）是一个用于处理人类语言数据的Python库。它提供了丰富的工具和资源，支持各种自然语言处理（NLP）任务，如文本分类、标记化、词性标注、命名实体识别、情感分析等。NLTK库以英语为主中文的自然语言处理jieba库效果更好。

nltk(1)——常用函数

wang735019的专栏

12-29

2528

搜索文本关键词上下文——concordance 使用函数concordance可以查找关键词每次的出现，以及连同关键词出现的上下文一起显示。(查看关键词出现的上下文) from nltk.book import * text1.concordance("monstrous") 相似上下文查找——similar 使用similar函数可以看到同关键词

NLTK简单入门函数小汇总

苗_的博客

04-22

523

说明：本文代码均来自Natural Language Processing with Python 1. concordance(" ") 搜索某个特定词语在文章中出现的位置，并显示上下文 2. similar(" ") 搜索文章中与目标用法、意义相似的词 3. common_contexts([" "," "]) 这个函数和similar有点类似，但是不同的是,这个函数是用来搜索list...

NLTK自然语言处理（2）NLTK常用命令

todingdong的博客

10-23

1110

文章目录词频分布词频分布

chatgpt赋能python：Python实现错别字纠正的重要性与方法

atest166的博客

06-08

1050

本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公方向。下图是课程的整体大纲下图是AI职场汇报智能办公文案写作效率提升教程中用到的ai工具。

python 单词纠错_Python单词标记化

weixin_39611765的博客

12-09

151

单词标记是将大量文本样本分解为单词的过程。这是自然语言处理任务中的一项要求，每个单词需要被捕获并进行进一步的分析，如对特定情感进行分类和计数等。自然语言工具包(NLTK)是用于实现这一目的的库。在继续使用python程序进行字词标记之前，先安装NLTK。conda install -c anaconda nltk接下来，使用word_tokenize方法将段落拆分为单个单词。import nl...

Python与自然语言处理 笔记一

secular_的博客

08-03

907

第一章节：语言处理与Python 安装nltk并获取所需要的数据，数据在book里（nltk_data的一部分）。 >>>import nltk >>>nltk.download() python3版本在这里会报错。解决方案： 1、手动下载nltk.data 2、修改弹出程序的Serverindex 点击file，change server index 原有的Serverindex换成 “http://www.nltk.org/nltk_...

Python自然语言处理 NLTK包中的 text3.generate() 命令出错 'Text' object has no attribute 'generate'

huludan的专栏

08-09

7049

《python自然语言处理时》第28页有这样一个命令--text3.generate()---功能是：产生一些与text3风格类似的随机文本。用NLTK3.0.4和Python2.7.6来实现时却出现错误：'Text' object has no attribute 'generate' . 探索一下后发现问题所在：打开nltk文件夹中的text.py发现了，原来新版本的NLTK

Div+CSS布局全攻略：从入门到高级实战

《Div+CSS布局大全》是一本由JesseZhao在博客园上整理的全面教程，专为学习和实践DIV+CSS布局的人们提供指南。这本书涵盖了从基础入门到深入理解的各个方面，旨在帮助读者掌握这种流行的网页布局技术。该教程首先...