nltk 自然语言处理库源自宾夕法尼亚大学计算机与信息科学系的计算机语言学课程,在数十名优秀的贡献者的帮助下不断壮大,成为最常用的自然语言处理库之一。
下面列出了nltk库中的一些重要的模块
——nltk.corpus
————获取语料库。
——————语料库和词典的标准化接口
——nltk.tokenize,nltk.stem
————字符串处理
——————分词,句子分解,提取主干
——nltk.collocations
————搭配探究
——————t检验,卡方检验,点互信息
——nltk.tag
————词性标识符
——————n-gram,backoff,Brill,HMM,TnT
——nltk.classify,nltk.cluster
————分类
——————决策树,最大熵,朴素贝叶斯,EM,k-means
——nltk.chunk
————分块
——————正则表达式,n-gram,命名实体
——nltk.parse
————解析
——————图表,基于特征,一致性,概率性,依赖项
——nltk.sem,nltk.inference
————语义解释
——————λ演算,一阶逻辑,模型检验
——nltk.metrics
————指标评测
——————精度,召回率