前言
python爬虫基本指令要点



以下的两个图片的流程一致







实操内容:
安装scrapy(pip install scrapy)



对于安装scrapy插件。需要使用命令多安装几次才可以成功!!


创建项目
实操内容:
scrapy startproject myspider1
ls

查看新建项目的根目录
实操内容:
tree myspider1/

创建后所在用户文件下的位置:
实操内容:
-
C:\Users\Administrator\myspider1

-
C :\Users\Administrator\myspider1\myspider1

创建后所在安康达软件内的所在位置:
实操内容:
- D:\anaconra3_software\Lib\site-packages\scrapy\templates\project

2. D:\anaconra3_software\Lib\site-packages\scrapy\templates\project\module

调制界面,显示文件的根目录
实操内容:


创建爬取文件

实操内容:
cd myspider
scrapy genspider itcast itcast.cn

所创建爬虫文件的目录
文件目录下
C:\Users\Administrator\myspider1\myspider1\spiders

软件目录下

genspider:生成爬虫 itcast:传智播客 itcast.cn:传智播客的网址
deploy:部署 pipeline:管道
修改刚刚使用命令生成内部的源码

import scrapy
#定义爬虫类
class ItcastSpider(scrapy.Spider):
# 定义爬虫的名字
name = 'itcast'
# 域名进行链接
allowed_domains = ['itcast.cn']
# 爬虫起始的url,一般是自己修改
start_urls = ['http://itcast.cn/']
# 定义解析。从中获取网址的数据!!
# 定义对于网址的相关操作
def parse(self, response): # response所对应的start_urls
with open('itcase.html','wb') as f:
f.write(response.body)
运行项目

实操部分
scrapy crawl itcast #crawl :爬取

产生的文件为html结尾
ls #查看该目录下的所有文件信息
命令下的html文件

软件内的html

Python Scrapy爬虫快速入门

本文介绍了Python Scrapy爬虫的基本操作,包括安装Scrapy、创建项目、查看项目目录、创建爬虫文件以及运行爬虫。通过实例演示了如何使用命令行生成和运行爬虫,并展示了生成的HTML文件。
1572

被折叠的 条评论
为什么被折叠?



