用Python Scrapy爬取某电影网站并存储入mysql

最新推荐文章于 2025-05-22 09:52:18 发布

原创

最新推荐文章于 2025-05-22 09:52:18 发布 · 1.5w 阅读

4 ·

CC 4.0 BY-SA版权

本文介绍了如何利用Python的Scrapy框架爬取javlib电影网站的数据，并详细阐述了从创建items.py定义数据结构，编写爬虫文件spidername.py进行爬取，到配置pipelines.py实现数据存储入MySQL数据库的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

爬取目标：javlib，使用框架Scrapy

首先使用在命令行里

scrapy startproject projectname

和

scrapy genspider spidername

指令创建爬虫。

首先定义items.py

import scrapy


class AvmoItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    pic = scrapy.Field()
    url = scrapy.Field()
    id_ = scrapy.Field()

这是spiders文件夹中的爬虫文件

spidername.py

# -*- coding: utf-8 -*-
import scrapy
import os
import sys
import re
import urllib.parse
sys.path.append(os.path.abspath(os.path.dirname(__file__) + '/' + '..'))
import items


class JavbusSpider(scrapy.Spider):
    name = 'javlibrary'
    allowed_domains = ['www.ja14b.com']
    start_urls = ['http://www.ja14b.com/cn/vl_genre.php?g=cu']

    # 爬取目录页