- 博客(24)
- 收藏
- 关注
原创 在 M1 MacBook Air 上使用 Parallels Desktop 创建 macOS 虚拟机
下载 macOS 固件、创建 macOS 虚拟机、下载 Win 镜像
2022-08-10 09:40:51
3919
原创 用Python写一个带进度条的简单下载器
Noneimport requestsfrom tqdm import tqdmdef download(url, file_name): headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36 Edg/98.0.1108.62'
2022-03-11 21:47:39
936
原创 课程笔记6:Scrapy框架——Extension的使用
Scrapy提供了一些Extension机制,可以让我们添加和扩展一些自定义的功能(监听Scrapy运行过程中的信号,在发生某个事件时,执行我们自定义的方法)。
2022-01-24 21:14:10
954
原创 知识补充2:Elasticsearch的基本使用(Windows+Python)
ElasticSearch 是一个分布式的,高性能,高可用的,可伸缩的搜索和分析系统
2022-01-19 22:32:07
2669
原创 知识补充1:MongoDB的基本使用方法
NoSQL(Not Only SQL),泛指非关系型数据库。NoSQL是基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能非常高。
2022-01-17 23:58:15
688
原创 课程笔记4:Scrapy框架——下载中间件&爬虫中间件的用法
下载中间件(Downloader Middleware)&爬虫中间件(SpiderDownloader)
2022-01-15 23:08:51
1058
原创 课程笔记3:Scrapy框架——Spider的用法
Spider的三个核心任务:定义链接配置 定义抓取逻辑(爬取网站的动作) 定义解析逻辑(分析爬取到的网页)Spider的运行流程:以初始URL初始化Request,并设置回调函数。当该Request成功请求并返回时,生成一个Response(这个Response将作为参数传给该回调函数)。 在回调函数内分析返回的网页内容,返回的结果有两种形式:item和Request。 Item:如果解析到有效的结果,会以字典或Item对象的形式返回。接着就可以将数据保存下来(可通过Feed Expo
2022-01-11 15:50:57
779
原创 课程笔记2:Scrapy框架——Selector(选择器)的用法
Selector是基于lxml来构建的,支持XPath选择器、CSS选择器以及正则表达式。1.直接使用from scrapy import Selectorbody = '<html><head><title>Hello World</title></head><body></body></html>'selector = Selector(text=body)title = selec.
2022-01-10 12:07:22
2943
原创 课程笔记1:Scrapy框架的基础用法
简介:Scrapy是一个基于Twisted的异步处理框架,是纯Python实现的爬虫框架。优势:架构清晰、模块之间耦合度程度低,可扩展性强,可以灵活完成各种需求。只需要定制开发几个模块就能轻松实现一个爬虫。架构介绍:Engine(引擎),处理整个系统的数据流处理、触发事务,是整个框架的核心。Item(项目),定义爬取结果的数据结构,爬取的数据会被赋值成该Item的对象。Scheduler(调度器),接受引擎发过来的请求并将其加入到队列中,在引擎再次请求的时候,将请求提供给引擎。D
2022-01-07 18:00:02
1405
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人