多线程
threading模块
- 利用多核CPU的能力,真正的并行执行任务
- 优点:比进程更 轻量级,占用资源少
- 缺点:比起进程,只能并发,不能利用多CPU(GIL);比起协程,启动数目有限制,占用内存资源,有线程切换开销
# 创建一个线程
import threading
# 创建一个线程对象
t = threading.Thread(target = func_name, args = (func_pattern))
# 启动线程
t.start()
# 等待结束
t.join()
线程安全:
- 某个函数,函数库在多线程环境中被调用时,可以正确的处理多个线程的共享变量
- 由于线程的执行随时会发生切换,就造成了不可预料的结果,出现了线程的不安全
# try-finally模式
lock = threading.Lock()
lock.acquire()
try:
# do something
finally:
lock.release()
# with模式
lock = threading.Lock()
with lock:
# do something
线程池
- 原理:新建线程系统需要分配资源,终止线程系统需要回收资源,如果重用线程,就可以减去新建,终止的开销
- 优点:
- 提升性能,因为重复利用,减少新建,终止的开销
- 适用突发性大量请求;需要大量线程完成任务且实际任务处理时间较短
- 线程池数目可以固定,即可避免系统因线程过多,而系统负荷过大变慢
- 代码优势:使用线程池语法比自己新建线程执行线程更简洁
# ThreadPoolExcecutor两个用法
from concurrent.futures import ThreadPoolExecutor,as_completed
# 用法一
# map函数,注意map的结果和入参是顺序对应的
with ThreadPoolExecutor() as pool:
results = pool.map(craw,urls)
for result in results:
print(result)
#用法二
# future模式,更强大,注意如果用as completed顺序是不定的
with ThreadPoolExecutor() as pool:
futures = [ pool.submit(craw,url)
for url in urls ]
for future in futures:
print(future.result())
for future in as_completed(futures):
print(future.result())
多进程
- 利用CPU和IO可以同时执行的原理
- 优点:可以利用多核CPU并行运算
- 缺点:占用资源最多,可启动数目比线程少
multiprocessing模块:该模块提供的多进程机制,可以实现并行计算,利用多核CPU优势
协程
- 在单线程内实现并发
- 核心原理: 用一个while True循环,配合IO多路复用原理(IO时CPU可以做别的)
多协程
asyncio模块
- 在单线程利用CPU和IO同时执行的原理,实现函数异步执行
- 优点:内存开销少,启动协程数目最多
- 缺点:支持的库有限制,代码实现复杂
- 注意:在异步IO编程中,依赖的库必须支持异步IO特性(requests 不支持异步,需要用aiohttp)
import asyncio
# 获取事件循环[相当于while true]
loop = asyncio.get_event_loop()
# 定义协程
async def myfunc(url):
# await表示不进行阻塞,直接进行下一个程序的执行
await get_url(url)
# 创建task列表
tasks = [loop.create_task(myfunc(url) for url in urls)]
# 执行爬虫事件列表,执行直到完成
loop.run_until_complete(asyncio.wait(tasks))