Spider文件,了解一下

import scrapy
import os
from lxml import etree
# import tutorial.tutorial.items as myitem
import re
#scrapy.spider  爬虫的基类
class QuotesSpider(scrapy.Spider):
    name = "start"
    #爬虫的名字
    #scrapy crawl quotes 运行这个爬虫

    #读取url生成一个一个request请求 返回一个可迭代对象
    def start_requests(self):
        urls = [' ']
        for url in urls:
            #生成器
            yield scrapy.Request(url=url, callback=self.parse)   #回调
    #默认的回调方法
    def parse(self, response):
        #返回的页面
        page = etree.HTML(response.body)
        #获取html中txttare标签中的文本内容
        textarea = page.xpath('//textarea[starts-with(@id,"txtare")]/text()')

        for i in textarea:
            str = i
            searchObj = re.search(r'(.*。)', str).group()
            # 题目|朝代|诗人|内容|连接
            print(str[str.find("《")+1 :str.find("》")],'|',
                  str[str.find("—") + 2:str.find("·")],'|',
                  str[str.find("·") + 1:str.find("《")],'|',
                  searchObj,'|',
                  str[str.find("》") + 1:str.__len__()]
                  )
if __name__ == '__main__':
    os.system('scrapy crawl start')

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值