selnna-优快云博客

原创 ImportError: sys.meta_path is None, Python is likely shutting down 解决方案

ImportError: sys.meta_path is None, Python is likely shutting down 解决方案

2022-06-27 11:10:12 5588 2

今天使用的是异步爬取西游记每一个章节的内容。思维逻辑是1.同步爬取西游记每个章节的标题和对应编号2.然后根据每个章节的编号异步爬取章节介绍内容。#https://dushu.baidu.com/api/pc/getCatalog?data={%22book_id%22:%224306063500%22}#{title: "第一回灵根育孕源流出心性修持大道生", price_status: "0", cid: "11348571"}#https://dushu.baidu.com/api/pc/ge

2021-08-22 19:35:31 205

原创 2021-08-20

今天学习的是异步爬取图片。接下来先把异步的大体框架写一下"""input()程序也是处于阻塞状态request.get(url)在网络请求返回数据之前，程序也是处于阻塞状态的一般情况下，当程序处于I/O操作的时候，线程就会处于阻塞状态"""import asyncio"""协程：当程序遇见了IO操作的时候，可以选择性的切换到其他任务上。在微观上，是一个任务一个任务的进行切换，切换条件一般就是IO操作在宏观上，我们能看到的其实是多个任务一起执行多任务异步操作#都是在单线程的条件下

2021-08-20 17:58:12 191

原创多线程爬虫

今日份作业，今天爬取的是有关于菜价的数据。今天遇到的问题是自己爬取下来的页面与页面检查中Elements不一致，这个是有关于网页的一些知识，还得补这些知识????????????，越学越觉得自己菜。"""逻辑1.如何提取单个页面的数据2.上线程池，多个页面同时抓取"""import requestsimport jsonimport csvfrom concurrent.futures import ThreadPoolExecutor"""import requestsimport

2021-08-18 18:45:28 153

原创 2021-08-08

今天的作业，爬取是一些电影数据。也是遇到了一些问题，搞了一上午，真是把我气坏了)问题描述：弄出来的数据总是出来一半之后就开始报错，和我作死。原因是之前在提取子页面这部分我使用的是result3=obj3.search()在后期有一个页面自身不包含我匹配的信息，在那就自动报错了。所以后来我改成result3=obj3.finditer(),自动跳过那个页面。就顺利全爬出来#1.定位到2021必看热片#2.从2021必看热片中提取到子页面的链接下载地址#3.请求子页面的链接地址。拿到我们想要的

2021-08-08 12:22:57 269

原创 2021-08-04

今天又爬取一些资源，仅仅是自己会动态翻页爬取，中间遇到一些问题记录下来，仅供之后学习参考，如有错误之处，请指出~import requestsimport reimport csvfor start in range(0,51,25): print('------------------正在抓取第{}页数据-----------------------'.format(start)) url="https://movie.XXXX.com/top250?start={}&fi

2021-08-04 21:40:15 93

原创爬虫数据可视化

爬虫-可视化界面柱状图交作业啦，最近在学习爬虫，由于基础性学习太慢，对于我这种急性子的人直接去 B站找了一个完整的例子直接上手做了。就是爬取一个页面的内容，并把爬取下来的数据可视化，用柱状图直观表示出来。直接上代码吧import requestsimport pprintimport csvfile = open('data.csv', mode='a', encoding='utf-8', newline='') #a表示数据的追加csv_write = csv.DictWriter(f

2021-07-31 09:33:13 6484 1

selnna的博客

原创数据交易--国家标准整理