自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务。
自然语言处理的应用,包括语音识别,语音翻译,理解句意,理解特定词语的同义词,以及写出语法正确,句意通畅的句子和段落。
NLTK 是一个当下流行的,用于自然语言处理的 Python 库。
-
安装nltk库
要求python的版本必须为2.7及以上,直接使用pip安装
pip install nltk
-
检测并下载nltk的data包
进入python控制台
import nltk # 没有报错,说明安装nltk成功
nltk.download() # 弹出nltk的data包下载器
注意:
nltk_data下载,所有包大概3.2G,下载时间较长,可以根据需要下载所需要的部分即可
-
nltk_data的使用
在代码中使用nltk
import nltk
nltk.data.path.append("../nltk_data")
-
nltk实例应用
获取测试纯文本,nltk是针对英文的文本处理,获取php官方介绍,当作测试文本
既然我们用的是python,当然使用最简单的方法获取咯
爬虫获取php.net文本信息
# coding: utf-8
import sy