一 以下内容翻译python自然语言处理
今天说一下第一章的知识
自然语言处理和python
不罗嗦,直接进入主题。本书中主要是介绍NLTK这个工具包的函数的用法,以及一些资料库等,如语料库等等。所以,我将着重翻译函数。
A 查找函数
concordance(s):查找与字符串s相匹配的单词及其上下文(不明白为什么这个两个函数在查找时要建立索引,加快速度?)
similar(s):查找与字符串s相似的单词及其上下文
common_contexts(s,t):查找与s,t都有关系的词
dispersion_plot(s,t,...)图显s,t在文件中的所有位置,以及它出现的次数--->色散图
B 计算词汇
len()
set(text1):列出text1中所有的词汇,有重复。
C 简单统计
这里简单说一下,现在的自然语言处理是基于统计的,这个研究从70s开始。
fdist=FreqDist(samples):统计有多少个量参与统计,它返回的是一个对象!
所以
fdist.keys():降序排列频率
fdist['when']统计when 出现的次数
好了,到这。