原始文本处理:从网络到字符串操作
1. 从网络和磁盘访问文本
在自然语言处理(NLP)中,获取文本数据是至关重要的第一步。文本的重要来源之一是网络,同时,我们也可能需要处理本地文件中的文本。接下来,我们将详细介绍如何从不同的来源获取文本。
1.1 电子书
古登堡计划(Project Gutenberg)提供了大量的免费在线书籍。我们可以通过其目录(http://www.gutenberg.org/catalog/)浏览并获取 ASCII 文本文件的 URL。例如,我们可以获取《罪与罚》( Crime and Punishment )的英文译本:
from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw = urlopen(url).read()
print(type(raw)) # <type 'str'>
print(len(raw)) # 1176831
print(raw[:75]) # 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'
如果使用的网络代理未被 Python 正确检测,可能需要手动指定代理:
proxies = {'http': 'http://www.someproxy.com:3128'}
r
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



