pythonscrapy——crawlspider
crawlspider命令——scrapy startproject xxxx,scrapy genspider -t crawl xx xxxxxx


爬取古诗名字:


将没有title的处理


当url的规律适合用正则来爬取的话,用crawlspider会好
详情页的名字在这个:



结果:

不仅爬出来了,也把不用的数据也爬了

因为他们的url也是这样的

cookie模拟登录——qq空间
需要在parse之前就把cookie放上去——用中间键middlewaves实现(下载中间键)
方式一:用middlewaves下载中间键
Request()方法参数都可以作为request的设置

设置代理ip

cookie设置:

settings里面的cookie

用其他方式2:方法重写start_requests
找到网页qq空间中的cookie

拿到cookie之后,因为两个之间隔着; 所以从这个来进行split()
class QkjSpider(scrapy.Spider):
name = 'qkj'
allowed_domains = ['qq.com']
start_urls = ['https://user.qzone.qq.com/807206781']
# 携带cookie 可以用下载中间件
# 携带cookie要重写start_requests()方法
def start_requests(self):
cookies = 'pgv_pvid=6875865022; RK=xNAscq/bfR; ptcz=288c7e8814e1499eb6d8741258d952974d9331dff7ecffd1495d1150efae201c; pgv_info=ssid=s8828885120;

本文介绍了使用Python Scrapy框架进行网络爬虫的实战经验,包括利用crawlspider爬取古诗名字,处理没有title的情况,以及如何通过正则表达式优化爬取。还详细讲解了如何进行cookie模拟登录qq空间,通过中间键middlewaves设置cookie,并通过两种方式发送POST请求,以GitHub为例展示了登录过程。
最低0.47元/天 解锁文章
71万+

被折叠的 条评论
为什么被折叠?



