
网络爬虫
文章平均质量分 69
Similar_Fair
鹅厂全栈咸鱼一条
展开
-
使用 Python Scrapy 爬取微博内容【二】
接上文。 根据实验,微博对于同一IP/Cookiess连续爬取允许时间大约为5min,所以为了连续的爬取,拥有多个账号&代理&User_Agent 是十分必要的。 账号这个我不多说,淘宝几毛钱的事情,但实现自动登录获取Cookies这个我没有研究过,但跟今天我要说的没什么关系。 今天我要说的是在Scrapy中使用代理来访问微博进而进行爬取。 首先我们得找到一些免费可用的代理服务器。网上有很多原创 2017-06-04 13:50:12 · 2122 阅读 · 0 评论 -
使用 Python Scrapy 爬取微博内容【一】
开始正文前,我先阐述下我的选择的解决方案:Scrapy+beautifulsoup+Re+pymysql,爬取weibo手机版(反爬技术较少,比较容易) Scrapy:爬虫框架,不多说 beautifulsoup:优秀的解析库,我用来解析lxml Re:正则表达式 pymysql:MySql思路简介跳过繁琐的Scrapy 各个功能模块的介绍,我说下我的大致思路: 每个用户都会有自己原创 2017-05-25 16:35:57 · 16585 阅读 · 5 评论