- 博客(8)
- 收藏
- 关注
原创 ImportError: sys.meta_path is None, Python is likely shutting down 解决方案
ImportError: sys.meta_path is None, Python is likely shutting down 解决方案
2022-06-27 11:10:12
5370
2
原创 2021-08-22
今天使用的是异步爬取西游记每一个章节的内容。思维逻辑是1.同步爬取西游记每个章节的标题和对应编号2.然后根据每个章节的编号异步爬取章节介绍内容。#https://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22}#{title: "第一回 灵根育孕源流出 心性修持大道生", price_status: "0", cid: "11348571"}#https://dushu.baidu.com/api/pc/ge
2021-08-22 19:35:31
169
原创 2021-08-20
今天学习的是异步爬取图片。接下来先把异步的大体框架写一下"""input()程序也是处于阻塞状态request.get(url)在网络请求返回数据之前,程序也是处于阻塞状态的一般情况下,当程序处于I/O操作的时候,线程就会处于阻塞状态"""import asyncio"""协程:当程序遇见了IO操作的时候,可以选择性的切换到其他任务上。在微观上,是一个任务一个任务的进行切换,切换条件一般就是IO操作在宏观上,我们能看到的其实是多个任务一起执行多任务异步操作#都是在单线程的条件下
2021-08-20 17:58:12
157
原创 多线程爬虫
今日份作业,今天爬取的是有关于菜价的数据。今天遇到的问题是自己爬取下来的页面与页面检查中Elements不一致,这个是有关于网页的一些知识,还得补这些知识????????????,越学越觉得自己菜。"""逻辑1.如何提取单个页面的数据2.上线程池,多个页面同时抓取"""import requestsimport jsonimport csvfrom concurrent.futures import ThreadPoolExecutor"""import requestsimport
2021-08-18 18:45:28
129
原创 2021-08-08
今天的作业,爬取是一些电影数据。也是遇到了一些问题,搞了一上午,真是把我气坏了)问题描述:弄出来的数据总是出来一半之后就开始报错,和我作死。原因是之前在提取子页面这部分我使用的是result3=obj3.search()在后期有一个页面自身不包含我匹配的信息,在那就自动报错了。所以后来我改成result3=obj3.finditer(),自动跳过那个页面。就顺利全爬出来#1.定位到2021必看热片#2.从2021必看热片中提取到子页面的链接下载地址#3.请求子页面的链接地址。拿到我们想要的
2021-08-08 12:22:57
230
原创 2021-08-04
今天又爬取一些资源,仅仅是自己会动态翻页爬取,中间遇到一些问题记录下来,仅供之后学习参考,如有错误之处,请指出~import requestsimport reimport csvfor start in range(0,51,25): print('------------------正在抓取第{}页数据-----------------------'.format(start)) url="https://movie.XXXX.com/top250?start={}&fi
2021-08-04 21:40:15
68
原创 爬虫 数据可视化
爬虫-可视化界面柱状图交作业啦,最近在学习爬虫,由于基础性学习太慢,对于我这种急性子的人直接去 B站找了一个完整的例子直接上手做了。就是爬取一个页面的内容,并把爬取下来的数据可视化,用柱状图直观表示出来。直接上代码吧import requestsimport pprintimport csvfile = open('data.csv', mode='a', encoding='utf-8', newline='') #a表示数据的追加csv_write = csv.DictWriter(f
2021-07-31 09:33:13
6399
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人