scrapy爬取准备工作

刚学scrapy框架,先练习一下

1.先建立一个新文件夹, 命名为novel

2.打开cmd, 敲命令


3.打开pycharm

文件是这样的


4.配置环境






### 使用Scrapy框架抓取网站HTML源代码 为了利用Scrapy框架来获取网页的HTML源代码,需先确保已正确安装并设置好Scrapy环境[^2]。一旦准备工作完成,可以按照如下方法编写简单的Spider脚本来实现目标。 #### 创建一个新的Scrapy项目 通过命令行工具,在期望的位置创建新的Scrapy项目: ```bash scrapy startproject myproject ``` 这会建立名为`myproject`的新目录结构用于存放项目的各个组成部分。 #### 编写爬虫逻辑 进入刚创建好的项目文件夹内,并定义具体的爬虫类。假设要构建一个针对百度首页的简单爬虫实例,则可以在`spiders/baidu.py`中加入以下Python代码片段[^1]: ```python import scrapy class BaiduSpider(scrapy.Spider): name = 'baidu' allowed_domains = ['www.baidu.com'] start_urls = ['https://www.baidu.com/'] def parse(self, response): page_source = response.text # 获取整个页面的内容作为字符串返回 with open('output.html', mode='w+', encoding="utf8") as file: file.write(page_source) # 将获取到的html保存至本地磁盘上的output.html文件里 ``` 上述代码实现了基本的功能需求——访问指定URL并将响应体中的HTML内容记录下来以便后续处理或查看。 #### 执行爬虫任务 最后一步是在终端执行下面这条指令启动刚才编写的蜘蛛程序: ```bash scrapy crawl baidu ``` 此操作将会触发BaiduSpider去请求设定的目标网址,并依照parse函数里的指示把接收到的信息存入当前工作路径下新生成的`output.html`文档之中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值