Spider文件，了解一下

最新推荐文章于 2021-12-29 08:55:39 发布

原创最新推荐文章于 2021-12-29 08:55:39 发布 · 1.1k 阅读

1 ·

CC 4.0 BY-SA版权

本文介绍了一个使用Scrapy框架实现的爬虫实例，包括如何定义爬虫类、生成请求、解析网页数据并提取关键信息。通过正则表达式匹配特定文本，实现了对网页内容的高效抓取。

import scrapy
import os
from lxml import etree
# import tutorial.tutorial.items as myitem
import re
#scrapy.spider  爬虫的基类
class QuotesSpider(scrapy.Spider):
    name = "start"
    #爬虫的名字
    #scrapy crawl quotes 运行这个爬虫

    #读取url生成一个一个request请求 返回一个可迭代对象
    def start_requests(self):
        urls = [' ']
        for url in urls:
            #生成器
            yield scrapy.Request(url=url, callback=self.parse)   #回调
    #默认的回调方法
    def parse(self, response):
        #返回的页面
        page = etree.HTML(response.body)
        #获取html中txttare标签中的文本内容
        textarea = page.xpath('//textarea[starts-with(@id,"txtare")]/text()')

        for i in textarea:
            str = i
            searchObj = re.search(r'(.*。)', str).group()
            # 题目|朝代|诗人|内容|连接
            print(str[str.find("《")+1 :str.find("》")],'|',
                  str[str.find("—") + 2:str.find("·")],'|',
                  str[str.find("·") + 1:str.find("《")],'|',
                  searchObj,'|',
                  str[str.find("》") + 1:str.__len__()]
                  )
if __name__ == '__main__':
    os.system('scrapy crawl start')