step1.研究网页结构,每个景点有一个景区的超“链接” https://piao.ctrip.com/ticket/dest/t2286.html
step2.链接到景区后,评论,在scrapy shell中不显示。推测应该是ajax等的发起的请求。
- 找到的地址是:https://sec-m.ctrip.com/restapi/soa2/12530/json/viewCommentList
- 请求体中包含,景区的viewid,就是景区链接里2286,其他就是一些分页等的内容,可以自己设定。
step3.计划这个爬虫分2步
- 爬取景点的code
- 根据code爬取 景区的评论
step4.源码放到git上了:https://github.com/wenwen0220/xiechengDemo
主要代码如下:
爬取code:
import scrapy
from xiechengDemo.items import SceneryCodeItem
import random
import re
#爬取景区的code
class SceneryCodeSpider(scrapy.Spider):
name = "sceneryCode"
#要爬取的url集合
# start_urls = ['https://you.ctrip.com/sightlist/shandong100039/s0-p2.html']
#可以直接读取文件
start_urls=[i.strip() for