1.准备环境
- 这里只需要介绍windows的就好,其他system可以直接命令安装即可
- pip install wheel
- 还需要安装Twisted,这个东西需要查看自己的版本和对应的版本关系,不然可能不兼容
- pip install win32
- pip install scrapy
2.如何使用?
# 创建工程
scrapy startproject pro_name
# 创建爬虫文件
scrapy genspider spider_name www.xxx.com # 这里要注意,记得进入工程文件夹中再创建爬虫文件
- 持久化存储(基于终端指令实现)
思路:
- 将爬取到的数据进行处理,拿到想要的数据
- 将数据添加到字典当中(而不是字符串)
- 返回字典
- 终端命令执行
# item操作
class TestSpider(scrapy.Spider):
name = 'test'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.xuexila.com/duanzi/nahanduanzi/2870287.html']
def parse(self, response):
page_text_list = response.xpath('//*[@id="contentText"]//p/text()').extract()
all_datas = []
for text in page_text_list:
text = ''.join(text)
dic = {
'context':text
}
all_datas.append(dic)
return all_datas
补充:这里会弹出一大堆的没啥用的日志文件,我们需要修改一下日志等级,在settings文件下添加日志等级
- 回调函数Callback
# url模板
url = 'https://www.xuexila.com