Python 虚拟环境 python爬虫 scrapy框架

本文介绍如何在Python虚拟环境中创建爬虫项目,并使用PyCharm配置环境。文章讲解了遵守robots.txt规则的重要性,并演示了如何通过debug进行爬虫测试。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python虚拟环境安装完成后如何创建项目:

先进入py3scrapy才能创建哦!(我安装的虚拟环境名字是py3scrapy)


用pycharm打开为

还需配置环境:


在setting中:

# Obey robots.txt rules
# Scrapy框架默认遵守 robots.txt 协议规则,robots规定了一个网站中,哪些地址可以请求,哪些地址不能请求。
# 默认是True,设置为False不遵守这个协议。
ROBOTSTXT_OBEY = False

--------------------------------------------------------------------

爬虫当然不能少了debug:

在baidu.py中打点

然后在根目录下建立debug.py(名字可以随便起)

写入下面是的两行: (baidu是你要进行爬虫的文件)

from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'baidu'])

如果你嫌麻烦的话,也可以直接在命令行敲 scrapy crawl baidu(其实每次都要敲命令, 有点麻烦,不建议用)

==================================================================

    scrapy 文档   链接:   https://doc.scrapy.org/en/latest/topics/architecture.html



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值