10、原始文本处理：从网络到字符串操作-优快云博客

本文链接：https://blog.youkuaiyun.com/echo99/article/details/155062788

原始文本处理：从网络到字符串操作

1. 从网络和磁盘访问文本

在自然语言处理（NLP）中，获取文本数据是至关重要的第一步。文本的重要来源之一是网络，同时，我们也可能需要处理本地文件中的文本。接下来，我们将详细介绍如何从不同的来源获取文本。

1.1 电子书

古登堡计划（Project Gutenberg）提供了大量的免费在线书籍。我们可以通过其目录（http://www.gutenberg.org/catalog/）浏览并获取 ASCII 文本文件的 URL。例如，我们可以获取《罪与罚》（ Crime and Punishment ）的英文译本：

from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw = urlopen(url).read()
print(type(raw))  # <type 'str'>
print(len(raw))   # 1176831
print(raw[:75])   # 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

如果使用的网络代理未被 Python 正确检测，可能需要手动指定代理：

proxies = {'http': 'http://www.someproxy.com:3128'}
r