原始文本处理:从网络到字符串操作
1. 文本获取途径
文本的重要来源之一是网络,同时我们也可能有自己的文本源需要去访问。下面介绍几种常见的获取文本的方式:
- 电子书籍 :古登堡计划有大量免费在线书籍,可在 其目录 浏览并获取 ASCII 文本文件的 URL。例如,获取《罪与罚》的英文翻译文本:
from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw = urlopen(url).read()
若使用未被 Python 正确检测的网络代理,需手动指定:
proxies = {'http': 'http://www.someproxy.com:3128'}
raw = urlopen(url, proxies=proxies).read()
获取的 raw 变量是包含大量字符的字符串,需进行分词处理:
import nltk
tokens = nltk.word_tokenize(raw)
text = nltk.Text(tokens)
由于下载的文本
超级会员免费看
订阅专栏 解锁全文
4807

被折叠的 条评论
为什么被折叠?



