十.scrapy项目爬取主页http://cuiqingcai.com/获取所有url与title

Scrapy爬虫实战

最新推荐文章于 2024-07-28 17:04:36 发布

原创最新推荐文章于 2024-07-28 17:04:36 发布 · 1.5k 阅读

0 ·

CC 4.0 BY-SA版权

python scrapy爬虫专栏收录该内容

11 篇文章

订阅专栏

本文介绍使用Scrapy框架配合CrawlSpider进行网站爬取的方法，包括URL规则匹配、数据解析及存储过程。通过实例展示了如何定义爬虫规则、提取所需信息并保存到MongoDB数据库。

一.分析采用crawlspider，利用rule规则提取url，并且follow=True追踪下去

rules = (
    Rule(LinkExtractor(allow=('\d+\.html$',)), callback='parse_all', follow=True),
    # Rule(LinkExtractor(allow=('\d+\.html$',)), callback='parse_pachong', follow=True),
   )

二.spider为

#coding:utf-8
from scrapy.spiders import CrawlSpider, Rule, Request
from scrapy.linkextractors import LinkExtractor
from ..items import CuiqingcaiItem


class myspider(CrawlSpider):
    name = 'cqc'
    allowed_domains = ['cuiqingcai.com']
    count_all = 0
    url_all = []
    start_urls = ['http://cuiqingcai.com']
    label_tags = [u'爬虫', 'scrapy', 'selenium']

    rules = (
        Rule(LinkExtractor(allow=('\d+\.html$',)), callback='parse_all', follow=True),
        # Rule(LinkExtractor(allow=('\d+\.html$',)), callback='parse_pachong', follow=True),
    )
    '''
    # 将爬虫相关的数据存入数据库
    def parse_pachong(self, response):
        print_tag = False
        title_name = u""
        for tag in self.label_tags:
            title_name = response.xpath('//header/h1[1][@class="article-title"]/a/text()').extract()[0]
            if tag in title_name.lower().encode("utf-8"):
                print_tag = True
        if print_tag == True:
            self.count_all = self.count_all + 1
            self.url_all.append(response.url)
            item = CuiqingcaiItem()
            item['url'] = response.url
            item['title'] = title_name.encode("utf-8")
            return item
    '''
    # 将全站数据存入json文件
    def parse_all(self, response):
        title_name = None
        if response.xpath('//header/h1[1][@class="article-title"]/a/text()').extract()[0]:
            title_name = response.xpath('//header/h1[1][@class="article-title"]/a/text()').extract()[0]
        item = CuiqingcaiItem()
        item['url'] = response.url
        item['title'] = title_name
        return item

三.pipelines为

import json
from pymongo import MongoClient
import settings
from items import CuiqingcaiItem

class CuiqingcaiPipeline(object):
    def __init__(self):
        cn=MongoClient('127.0.0.1',27017)
        db=cn[settings.Mongodb_DBNAME]
        self.table=db[settings.Mongodb_DBTable]
    def process_item(self, item, spider):
        if isinstance(item,CuiqingcaiItem):
            try:
                self.table.insert(dict(item))
            except Exception, e:
                pass
            return item

四.item为

import scrapy


class CuiqingcaiItem(scrapy.Item):

    title = scrapy.Field()  # 标题
    url = scrapy.Field()  # 页面的地址

十.scrapy项目 爬取主页http://cuiqingcai.com/获取所有url与title

十.scrapy项目爬取主页http://cuiqingcai.com/获取所有url与title