10、原始文本处理:从网络到字符串操作

原始文本处理:从网络到字符串操作

1. 从网络和磁盘访问文本

在自然语言处理(NLP)中,获取文本数据是至关重要的第一步。文本的重要来源之一是网络,同时,我们也可能需要处理本地文件中的文本。接下来,我们将详细介绍如何从不同的来源获取文本。

1.1 电子书

古登堡计划(Project Gutenberg)提供了大量的免费在线书籍。我们可以通过其目录(http://www.gutenberg.org/catalog/)浏览并获取 ASCII 文本文件的 URL。例如,我们可以获取《罪与罚》( Crime and Punishment )的英文译本:

from urllib import urlopen
url = "http://www.gutenberg.org/files/2554/2554.txt"
raw = urlopen(url).read()
print(type(raw))  # <type 'str'>
print(len(raw))   # 1176831
print(raw[:75])   # 'The Project Gutenberg EBook of Crime and Punishment, by Fyodor Dostoevsky\r\n'

如果使用的网络代理未被 Python 正确检测,可能需要手动指定代理:

proxies = {'http': 'http://www.someproxy.com:3128'}
r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值