第一章 Scrapy入门

最新推荐文章于 2024-10-16 17:48:16 发布

原创最新推荐文章于 2024-10-16 17:48:16 发布 · 246 阅读

0 ·

CC 4.0 BY-SA版权

编程专栏收录该内容

6 篇文章

订阅专栏

本文详细介绍Scrapy爬虫的基础知识，包括如何在Windows环境下使用Python3.7和Pycharm创建Scrapy项目，编写并运行第一个Spider，以及如何从优快云网站抓取文章标题。

转载请注明作者和出处：https://blog.youkuaiyun.com/lettmefly

运行平台：Windows

Python版本：Python 3.7

IDE：Pycharm

1. 引言

2. 创建项目

3. 编写Spider

4. How to run our Spider

5. 下一步

1. 引言

本章仅介绍Scrapy的基础，学习目标是：掌握创建Scrapy项目的方法，把一个已经准备好的Spider玩转起来。

2. 创建项目

在开始爬取之前，必须创建一个新的Scrapy项目。在命令行模式下（cmd），进入打算存储和运行爬虫代码的目录中，运行下列命令：

cd /D E:\scrapy
scrapy startproject tutorial

在E:\scrapy目录中多了一个tutorial文件夹，其中包含下列内容：

tutorial/
    scrapy.cfg            # 项目的配置文件        
    tutorial/            # 项目的Python模块，之后你将在次加入代码
        _init_.py
        items.py          # 项目的items文件 
        middlewares.py    # 项目的middleswares文件
        pipelines.py      # 项目的pipelines文件 
        settings.py       # 项目的settings文件 
        spiders/          # 放置spider的目录  
            _init_.py

3. 编写Spider

以下为我的第一个Spider代码，保存在tutorial/spiders目录下的csdn_spider.py文件：

import scrapy

class CsdnSpider(scrapy.Spider):
    name = "csdn"

    def start_requests(self):
        url = 'https://www.youkuaiyun.com'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        titles = response.xpath('//ul[@id="feedlist_id"]/li/div/div[1]/h2/a/text()').extract()
        for title in titles:
            print(title.strip())