scrapy初试

最新推荐文章于 2025-08-12 16:35:09 发布

weixin_33989780

最新推荐文章于 2025-08-12 16:35:09 发布

阅读量102

点赞数

CC 4.0 BY-SA版权

文章标签： python 开发工具

原文链接：http://www.cnblogs.com/vivivi/p/5917577.html

本文介绍如何使用Python3和Scrapy框架搭建简单的网页爬虫。通过PyCharm或pip安装Scrapy后，创建了一个名为wikiSpider的项目，并定义了抓取Wikipedia页面的Spider。示例展示了如何解析页面标题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python3 支持 scrapy了。

通过pycharm的菜单file-default setting-project interpreter，进行搜索安装；

通过如下pip也可安装：

$ pip install scrapy==1.1.0rc1

scrapy下的每个item对象表示网站的一个页面。可以定义不同的item（url,content,header,image）

首先，在当前目录下创建scrapy项目：

$scrapy startproject wikiSpider

会新建一个wikiSpider的项目文件夹，目录中有item.py、settings.py、spiders文件夹等；

在spider文件夹下新建articleSpider.py:

from scrapy import Spider
from wikiSpider.items import Article

class ArticleSpider(Spider):
    name = 'article'
    allowed_domains = ['en.wikipedia.org']
    start_urls = ['http://en.wikipedia.org/wiki/Main_Page', 'http://en.wikipedia.org/wiki/Python_%28programming_language%29']
    def parse(self, response):
        item = Article()
        title = response.xpath('//h1/text()')[0].extract()
        print('title is :'+title)
        item['title'] = title
        return item

把item.py改成：

from scrapy import Item,Field


class Article(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = Field()
    pass

同时在setting.py中修改日志，方便查看输出结果：

LOG_LEVEL = 'ERROR'

然后在wikiSpider主目录中运行：

$scrapy crawl article

可以出现调试信息：

title is :Main Page
title is :Python (programming language)

转载于:https://www.cnblogs.com/vivivi/p/5917577.html