来自于对 原文 的中文重新解释,希望能方便更多人。本身不是搞NLP的,但是需要用一些工具,有些理解和翻译可能不准确,可以在评论里指出,我修改。
简介和安装
pattern.en 是一个基于python的自然语言处理工具包,en代表English(没错,还有西班牙语es、德语de、法语fr、意大利语it、荷兰语nl),它可以做的事包括:词性标注(part-of-speech tagger)、情感分析(sentiment analysis)、动词处理(verb conjugation,不知道怎么翻译啦)、名词的单复数处理(noun singularization & pluralization)以及一个WordNet的接口。
要使用pattern.en
首先要安装pattern
,这是一个更大包,里面还有其它很多功能,在此我们就不介绍了。下载在这里,然后使用如下命令安装:
cd pattern-2.6
python setup.py install
或者你安装了pip
的话,也可以这样
pip install pattern
如果上面两种方法都失败了,还有下面的解决方案(未测试):
1. 将pattern
放在要执行的python脚本同一文件夹下,这样是不通用,在哪执行就复制到哪。
2. 为了在电脑的任意位置都可使用,可以将pattern
放在如下位置:
c:\python27\Lib\site-packages\ (Windows)
/Library/Python/2.7/site-packages/ (Mac)
/usr/lib/python2.7/site-packages/ (Unix)
- 或者在要执行的python脚本中加入如下语句:
import sys
sys.path.append('/your/path/to/pattern')
词性编码对照表
内容太多,请参看这里,有时间也整理出来。
定冠词和不定冠词
冠词(article),编码DT,在英语中经常使用,其中定冠词(definite )是the
,不定冠词(indefinite )是a
和an
。
相关函数:
referenced(word, article='Indefinite') # Returns article + word.
from pattern.en import referenced
print referenced('university')
print referenced('hour')
# output:
# a university
# an hour
未完待续