scrapy 抓取电影下载地址

Conan_ft

已于 2022-07-25 23:15:39 修改

阅读量331

点赞数

分类专栏： Python 文章标签： scrapy json python

于 2022-07-25 23:13:42 首次发布

本文链接：https://blog.youkuaiyun.com/qq_37137713/article/details/125985378

版权

Python 专栏收录该内容

16 篇文章

订阅专栏

此博客介绍了使用Scrapy爬虫从ygdy8.com网站遍历电影列表，通过正则表达式抓取ftp下载地址，并将结果写入本地文件的技术过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import requests
import re
import json
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class WhcSpider(CrawlSpider):
name = ‘whc’
allowed_domains = [‘ygdy8.com’]
start_urls = [‘http://ygdy8.com/’]
####### 遍历全站list，url
rules = (
Rule(LinkExtractor(allow=r’index.html’,deny=‘game’),follow=True),
Rule(LinkExtractor(allow=r’/list_\d+_\d+.html’), follow=True),
Rule(LinkExtractor(allow=r’/\d+/\d+.html’), callback=‘parse_item’),

)

def parse_item(self, response):
    # print(response.url)
    #### 获取下载地址
    ftp_url=re.findall('<a href="(.*?)">ftp',response.text)
    print(ftp_url)
    #### 写入本地文件
    with open('result.txt','a',encoding='utf-8') as f:
        f.write(json.dumps(ftp_url,ensure_ascii=False))

在这里插入图片描述