在爬取http://www.chinaparking.org/news/1-A007--0-1-0-1-0-1这个网站的时候,点击下一页发现是使用POST方式提交的,并且返回了XHR异步请求。如下:
查看参数信息如下:
多点击几个会发现每次翻页只有pageIndex这个参数会随页数发生变化。具体实现代码如下:
from pyspider.libs.base_handler import *
import re
import json
class Handler(BaseHandler):
crawl_config = {
'header': {
'Accept':'application/json, text/javascript, */*; q=0.01',
#'Accept-Encoding':'gzip, deflate',
'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;