爬取携程国内地区攻略评论

xiaoyaGrace

于 2020-01-06 09:56:31 发布

阅读量502

点赞数

CC 4.0 BY-SA版权

分类专栏： Python

本文链接：https://blog.youkuaiyun.com/xiaoyaGrace/article/details/103851149

该博客介绍了一个使用Scrapy框架爬取携程网站上国内地区攻略评论的示例。首先，爬虫从起始URL获取所有地区链接，然后遍历每个地区创建对应文件夹，并进一步抓取每个地区的景点评论。通过正则表达式提取评论内容，并将结果保存到对应地区的文本文件中。爬虫采用递归方式处理多级页面，持续抓取更多评论。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这里我们用scrapy 框架爬取数据

爬虫文件里面的代码：

# -*- coding: utf-8 -*-
import json
import re
import os
import scrapy
from copy import deepcopy

from scrapy_redis.spiders import RedisSpider

class ItcastSpider(scrapy.Spider):
# 爬虫名称, 运行爬虫的时候需要用到, 必须唯一
name = 'Ctrip'

# 起始的URL列表, 爬虫从这些URL开始爬取
start_urls = ['http://you.ctrip.com/place/']

def parse(self, response):
#获取所有地区的url 和名字
      url_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/@href').extract()
      name_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/text()').extract()
      i = 0

      for  url in url_list:
         #国内每个地方的文件夹
         os.makedirs('路径'+name_list[i])

         yield scrapy.Request('http://you.ctrip.com' + url, callback=self.parse_data,meta={'text_name':deepcopy(name_list[i])})
         i += 1

def parse_data(self,response):

      os_name = response.meta['text_name']

      url = response.xpath('/html/body/div[3]/div/div/ul/li[3]/a/@href').extract_first()

最低0.47元/天解锁文章

200万优质内容无限畅学