scrapy初试

本文介绍如何使用Python3和Scrapy框架搭建简单的网页爬虫。通过PyCharm或pip安装Scrapy后,创建了一个名为wikiSpider的项目,并定义了抓取Wikipedia页面的Spider。示例展示了如何解析页面标题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

python3  支持 scrapy了。

通过pycharm的菜单file-default setting-project interpreter,进行搜索安装;

通过如下pip也可安装:

$ pip install scrapy==1.1.0rc1

scrapy下的每个item对象表示网站的一个页面。可以定义不同的item(url,content,header,image)

首先,在当前目录下创建scrapy项目:

$scrapy startproject wikiSpider

会新建一个wikiSpider的项目文件夹,目录中有item.py、settings.py、spiders文件夹等;

在spider文件夹下新建articleSpider.py:

from scrapy import Spider
from wikiSpider.items import Article

class ArticleSpider(Spider):
    name = 'article'
    allowed_domains = ['en.wikipedia.org']
    start_urls = ['http://en.wikipedia.org/wiki/Main_Page', 'http://en.wikipedia.org/wiki/Python_%28programming_language%29']
    def parse(self, response):
        item = Article()
        title = response.xpath('//h1/text()')[0].extract()
        print('title is :'+title)
        item['title'] = title
        return item

把item.py改成:

from scrapy import Item,Field


class Article(Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = Field()
    pass

同时在setting.py中修改日志,方便查看输出结果:

LOG_LEVEL = 'ERROR'

然后在wikiSpider主目录中运行:

$scrapy crawl article

可以出现调试信息:

title is :Main Page
title is :Python (programming language)

 

转载于:https://www.cnblogs.com/vivivi/p/5917577.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值