代码如下:
win+R 输入cmd 打开终端输入
cd desktop
scrapy startprojectTX movies
cd TXmovies
scrapy genspider txms v.qq.com
修改setting文件
ROBOTSTXT_OBEY=False
DOWNLOAD_DELAY=1
DEFAULT_REQUEST_HEADERS{
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language':'en',
'UserAgent':'Mozilla/5.0'
}
ITEM_PIPELINES={'TXmovies.pipelines.TxmoviesPipeline':300,}
确认要提取的数据,item项
import scrapy
class TxmoviesItem(scrapy.Item):
#definethefieldsforyouritemherelike:
#name=scrapy.Field()
name=scrapy.Field()
description=scrapy.Field()
写爬虫程序
import scrapy
from ..items import TxmoviesItem
class TxmsSpider(scrapy.Spider):
name = 'txms'
allowed_domains = ['v.qq.com']
start_urls = ['http://v.qq.com/']
#

本文介绍了如何利用Scrapy框架在Windows环境下创建并配置爬虫项目,从v.qq.com获取信息。首先通过CMD进入桌面并启动Scrapy项目,创建名为TXmovies的爬虫,并定义txms爬虫目标。接着修改settings文件,定义要提取的数据项,编写爬虫程序,并通过管道进行数据处理。最后执行Scrapy项目开始抓取网页数据。
最低0.47元/天 解锁文章
2682

被折叠的 条评论
为什么被折叠?



