python爬虫
Hkpery
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python爬虫框架scrapy入门
对于scrapy框架的初步了解Scrapy Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。Downloader(下载器):负责下载ScrapyEngine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给ScrapyEngine(原创 2021-08-11 18:55:56 · 322 阅读 · 0 评论 -
python异常处理(爬虫)
python异常处理篇方法1#们抓取网页一般需要对 headers(网页头信息)进行模拟,这时候需要使用到 urllib.request.Request 类from urllib.urllib import Request,urlopenfrom urllib.error import URLError,HTTPErrorreq = Request(url)try: response = urlopen(req)except HTTPError as c: print('The serve原创 2021-08-05 17:52:22 · 328 阅读 · 0 评论 -
python爬虫实例-cat_picture_download
如果你也喜欢猫猫(>ω<)喵import urllib.requestimport randomimport timeheight = random.randint(1,1024)weight = random.randint(1,1024)new_url='http://placekitten.com/'+str(height)+'/'+str(weight)ip_list=['14.116.213.100:8081','14.18.109.42:8081','47.10原创 2021-08-05 17:38:33 · 2354 阅读 · 0 评论 -
python爬虫实例
动态爬取网页图片纯原码import urllib.requestimport osimport randomimport re"""def url_open(url): ip_list=['14.116.213.100:8081','14.18.109.42:8081','47.107.128.69:888','47.108.155.96:80','183.7.29.244:9999','36.57.68.239:8888','171.15.65.120:8080']原创 2021-08-05 17:31:50 · 1071 阅读 · 0 评论
分享