python爬虫周学习___赵俊杰

本文详细介绍了如何在命令行环境下安装Scrapy,包括必备的Python库如pip、wheel、lxml、twisted、pywin32以及Scrapy自身的安装步骤。通过检查pip列表确认安装成功后,创建了名为TXmovies的Scrapy项目,并生成了一个针对txmsv.qq.com的爬虫。接着,修改了settings.py文件以设置ROBOTSTXT_OBEY、DOWNLOAD_DELAY及默认请求头,并配置了ITEM_PIPELINES。最后,展示了如何运行爬虫的代码。这是一个针对网页数据抓取的初学者指南。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Scrapy安装与使用
打开命令提示符下载安装Scrapy所必须的环境:

优先下载python下载更新文件:python -m pip install --upgrade pip

然后下载:

pip install wheel

pip install lxml

pip install twisted

pip install pywin32

pip install scrapy

下载之后输入:pip list查询是否下载成功

创建项目:

scrapy start project TXmovies

cd TXmovies

scrapy genspider txms v.qq.com

修改setting:

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY=1

DEFAULT_REQUEST_HEADERS{

        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

        'Accept-Language':'en',

        'UserAgent':'Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.94Safari/537.36'

}

ITEM_PIPELINES={

        'TXmovies.pipelines.TxmoviesPipeline':300,

}

创建一个run项

from scrapy import cmdline
cmdline.exectute('scrapy crawl txms',sp;it())

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值