import scrapy
import os
from lxml import etree
# import tutorial.tutorial.items as myitem
import re
#scrapy.spider 爬虫的基类
class QuotesSpider(scrapy.Spider):
name = "start"
#爬虫的名字
#scrapy crawl quotes 运行这个爬虫
#读取url生成一个一个request请求 返回一个可迭代对象
def start_requests(self):
urls = [' ']
for url in urls:
#生成器
yield scrapy.Request(url=url, callback=self.parse) #回调
#默认的回调方法
def parse(self, response):
#返回的页面
page = etree.HTML(response.body)
#获取html中txttare标签中的文本内容
textarea = page.xpath('//textarea[starts-with(@id,"txtare")]/text()')
for i in textarea:
str = i
searchObj = re.search(r'(.*。)', str).group()
# 题目|朝代|诗人|内容|连接
print(str[str.find("《")+1 :str.find("》")],'|',
str[str.find("—") + 2:str.find("·")],'|',
str[str.find("·") + 1:str.find("《")],'|',
searchObj,'|',
str[str.find("》") + 1:str.__len__()]
)
if __name__ == '__main__':
os.system('scrapy crawl start')
Spider文件,了解一下
最新推荐文章于 2023-08-04 16:48:38 发布