这里我们用scrapy 框架爬取数据
爬虫文件里面的代码:
# -*- coding: utf-8 -*-
import json
import re
import os
import scrapy
from copy import deepcopy
from scrapy_redis.spiders import RedisSpider
class ItcastSpider(scrapy.Spider):
# 爬虫名称, 运行爬虫的时候需要用到, 必须唯一
name = 'Ctrip'
# 起始的URL列表, 爬虫从这些URL开始爬取
start_urls = ['http://you.ctrip.com/place/']
def parse(self, response):
#获取所有地区的url 和名字
url_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/@href').extract()
name_list = response.xpath('//*[@id="journals-panel-items"]/dl[2]/dd/ul/li/a/text()').extract()
i = 0
for url in url_list:
#国内每个地方的文件夹
os.makedirs('路径'+name_list[i])
yield scrapy.Request('http://you.ctrip.com' + url, callback=self.parse_data,meta={'text_name':deepcopy(name_list[i])})
i += 1
def parse_data(self,response):
os_name = response.meta['text_name']
url = response.xpath('/html/body/div[3]/div/div/ul/li[3]/a/@href').extract_first()
爬取携程国内地区攻略评论
最新推荐文章于 2025-09-18 23:29:53 发布
该博客介绍了一个使用Scrapy框架爬取携程网站上国内地区攻略评论的示例。首先,爬虫从起始URL获取所有地区链接,然后遍历每个地区创建对应文件夹,并进一步抓取每个地区的景点评论。通过正则表达式提取评论内容,并将结果保存到对应地区的文本文件中。爬虫采用递归方式处理多级页面,持续抓取更多评论。

最低0.47元/天 解锁文章
1635

被折叠的 条评论
为什么被折叠?



