计数词汇

最新推荐文章于 2025-06-25 21:02:53 发布

晏清

最新推荐文章于 2025-06-25 21:02:53 发布

阅读量175

点赞数

CC 4.0 BY-SA版权

分类专栏： Natural Language Processing with Py

本文链接：https://blog.youkuaiyun.com/YH201707029/article/details/115461666

Natural Language Processing with Py 专栏收录该内容

5 篇文章

订阅专栏

本文解析《创世纪》中词频和词汇表构建，揭示不同词类型的数量，并计算特定词汇的百分比，介绍如何通过Python实现文本处理和词汇丰富度测量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，让我们以文本中出现的词和标点符号为单位算出文本从头到尾的长度。我们使用函数len获取长度，请看在《创世纪》中使用的例子：
在这里插入图片描述
《创世纪》有44764个词和标点符号或者叫“标识符”。一个标识符是表示一个我们想要放在一组对待的字符序列的术语。当我们计数文本中标识符的个数时，如to be or not to be 这句话，我们计数这些序列出现的次数。因此，我们的例句中出现了to和be各两次，or和not各一次。然而在例句中只有四个不同的词。《创世纪》中有多少不同的词？要用Python来回答这个问题，我们处理问题的方法将稍有改变，一个文本词汇表只是它用到的标识符的集合，因为在集合中所有重复的元素只算一个。Python中我们可以使用命令：set(text3)获得text3的词汇表。
在这里插入图片描述
用sorted()包裹起Python表达式set(text3)，我们得到一个词汇项的排序表，这个表以各种标点符号开始，然后是以A开头的词汇。大写单词排在小写单词前面。我们通过求集合中项目的个数间接获得词汇表的大小。尽管小说中有44764个标识符，但只有2789个不同的词汇或词类型。一个词类型是指一个词在文本中独一无二的出现形式或拼写。也就是说，这个词在词汇表中是惟一的。我们计数的2789个项目包括标点符号，所以我们把这些叫做唯一项目类型而不是词类型。