用scapy获取网页信息

最新推荐文章于 2024-05-01 01:00:00 发布

原创

最新推荐文章于 2024-05-01 01:00:00 发布 · 898 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

本文介绍了如何利用Scrapy框架在Windows环境下创建并配置爬虫项目，从v.qq.com获取信息。首先通过CMD进入桌面并启动Scrapy项目，创建名为TXmovies的爬虫，并定义txms爬虫目标。接着修改settings文件，定义要提取的数据项，编写爬虫程序，并通过管道进行数据处理。最后执行Scrapy项目开始抓取网页数据。

代码如下：

win+R 输入cmd 打开终端输入

cd desktop

scrapy startprojectTX movies

cd TXmovies

scrapy genspider txms v.qq.com

修改setting文件

ROBOTSTXT_OBEY=False
DOWNLOAD_DELAY=1
DEFAULT_REQUEST_HEADERS{
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language':'en',
'UserAgent':'Mozilla/5.0'
}
ITEM_PIPELINES={'TXmovies.pipelines.TxmoviesPipeline':300,}

确认要提取的数据，item项

import scrapy

class TxmoviesItem(scrapy.Item):
#definethefieldsforyouritemherelike:
#name=scrapy.Field()
name=scrapy.Field()
description=scrapy.Field()

写爬虫程序

import scrapy
from ..items import TxmoviesItem

class TxmsSpider(scrapy.Spider):
    name = 'txms'
    allowed_domains = ['v.qq.com']
    start_urls = ['http://v.qq.com/']
    #