在这里统计作家玛格丽特·米切尔创作的<<飘>>第一部主要人物的出现次数,并按次数从高到低进行排序。
- jieba
由于文本是从网上找的中文文本,因此在这里使用到了中文分词词库jieba,jieba支持三种分词模式,精确模式,全模式,以及搜索引擎模式,精确模式,顾名思义,它较另外两种精确度更高,因此使用最广泛。
下面是一个分词例子,可以看出精确模式的优势。
- lambda函数用法
在这里使用到了lambda函数,其具体用法可以参考博客https://blog.youkuaiyun.com/zjuxsl/article/details/79437563 - 处理流程
本实例分为以下3个步骤:
1)对文本进行分词并提取词语
2)对每个单词进行计数,并删除无意义的词语。
3)将词语及数量按从小到大顺序排序
代码:
import jieba
#打开文件。
#open()的第一个参数是读取文件所在路径,要根据自己情况而定,
#read()函数用于读取文件,并将读到的内容转化为字符串
txt