使用 Python Scrapy 爬取微博内容【二】

最新推荐文章于 2024-09-01 16:40:34 发布

原创

最新推荐文章于 2024-09-01 16:40:34 发布 · 2.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#python #微博 #微博爬虫 #scrapy-爬虫

接上文。
根据实验，微博对于同一IP/Cookiess连续爬取允许时间大约为5min，所以为了连续的爬取，拥有多个账号&代理&User_Agent 是十分必要的。
账号这个我不多说，淘宝几毛钱的事情，但实现自动登录获取Cookies这个我没有研究过，但跟今天我要说的没什么关系。
今天我要说的是在Scrapy中使用代理来访问微博进而进行爬取。
首先我们得找到一些免费可用的代理服务器。网上有很多Python自动获取代理的方法，我这里只做简单的实验，所以就直接在程序中写死。

http://www.xdaili.cn/freeproxy.html

这个网站很不错，推荐的那几个免费的基本都能用。我这里使用他的无密码代理。

下面进入正文。

Settings.py的配置

想要使用代理，我们必须打开Downloader的Middleware。
设置如下：

DOWNLOADER_MIDDLEWARES = {
    'Spider.middlewares.Proxy_And_UsrAgent': 100,
}

由于只是使用代理，这使得我们的代码变得异常简单。

from Spider.settings import US

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。