本篇博客补充一下协程并发数控制相关知识点。
在正式编码前,先介绍一下本篇博客要采集的站点:【看历史,通天下-历史剧网】。
目标数据是该站点下的热门历史事件,列表页分页规则如下所示:
http://www.lishiju.net/hotevents/p0
http://www.lishiju.net/hotevents/p1
http://www.lishiju.net/hotevents/p2
首先我们通过普通的多线程,对该数据进行采集,由于本文主要目的是学习如何控制并发数,所以每页仅输出历史事件的标题内容。
普通的多线程代码
import threading
import time
import requests
from bs4 import BeautifulSoup
class MyThread