编写多进程网络爬虫程序,爬取中国工程院网页(http://www.cae.cn/cae/html/main/col48/column_48_1.html)上每位院士的信息,将每位院士的建立存为本地文件,把每位院士的照片保存为本地图片,文本文件和图片文件都以院士的姓名为文件名。
步骤
1.使用浏览器打开网页:
2.查看网页源代码
3.编写爬虫:
import requests
import re
from multiprocessing import Process
import os
def run(a_url,headers):
print("子进程ID号:%d\n" % (os.getpid())) # os.getpid()进程ID
# 获取院士详细资料的页面
new_url = "http://www.cae.cn" + a_url
r = requests.get(new_url