Python :自然语言处理工具 NLTK

本文介绍Python自然语言处理库NLTK的使用方法,包括文本分词、词性标注、实体识别及语法树构建等功能,并提供安装指南。

Python :自然语言处理工具 NLTK

NLTK 是一个高效的Python 构建的开源项目,用来处理自然语言数据,分类、标记化、词干化、解析和语义推理
官网
github

NLTK实现的简单例子

给文本分词
import nltk
sentence = "At eight o'clock on Thursday morning. Steve Jobs in U.S.A"
tokens = nltk.word_tokenize(sentence)
print(tokens)

输出

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', '.']
标记词性
tagged = nltk.pos_tag(tokens)
print(tagged)

输出

[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), ('.', '.')]

注:

# 词性缩写
#  "NN" (noun)(名词)
#  "VB" (verb)(动词)
#   "JJ" (adjective)(形容词)
#   "RB" (adverb)(副词)
#  "PR" (pronoun)(代词)
#   "DT" (determiner)(限定词)
#  "PP" (preposition)(介词)
#   "NO" (number)(数词)
#  "CJ" (conjunction)(连词)
# "UH" (interjection)(插入语)
#   "PT" (particle)(小品词)
#  "."  (punctuation)(标点)
#    "X"  (foreign word, abbreviation)(外来词,缩写)
识别已命名的实体
entities = nltk.chunk.ne_chunk(tagged)
print(entities)

输出

在这里插入代码片
解析树
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()

输出

在这里插入代码片

在这里插入图片描述

NLTK安装

要求Python 版本为2.7 或3.2 上

Mac / Unix
  1. 安装NLTK: 执行sudo pip install -u nltk
  2. 测试:执行python,进入python,进入python 后import nltk
Windows

http://pypi.python.org/pypi/nltk

NLTK附带了许多语料库,toy grammar以及训练模型等。完整的列表发布在:http://nltk.org/nltk_data/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

infiniteWei

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值