spiders文件夹的.py爬虫文件
| 方法或参数名 | 用法 |
|---|---|
| name | 每个项目唯一的名字,用来区分不同的 Spider |
| allowed_domains | 是允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉 |
| start_urls | 包含了 Spider 在启动时爬取的 url 列表,初始请求是由它来定义的 |
| parse | Spider 的一个方法。默认情况下,被调用时 start_urls 里面的链接构成的请求完成下载执行后,返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。 |
pipelines.py
| 方法或参数名 | 用法 |
|---|---|
| process_item() | 有两个参数。参数item:每次 Spider 生成的 Item 都会作为参数传递过来。参数 spider:就是 Spider 的实例。该方法必须返回包含数据的字典或 Item 对象,或者抛出 DropItem 异常。 |
本文详细介绍了爬虫项目中spiders文件夹内的.py文件配置,包括项目唯一标识name、允许爬取的域名allowed_domains、起始URLs start_urls及解析响应的parse方法,同时涵盖了pipelines.py中process_item()方法的使用,是理解爬虫架构与数据处理流程的关键。
65万+

被折叠的 条评论
为什么被折叠?



