爬取中国工程院院士的信息

编写多进程网络爬虫程序,爬取中国工程院网页(http://www.cae.cn/cae/html/main/col48/column_48_1.html)上每位院士的信息,将每位院士的建立存为本地文件,把每位院士的照片保存为本地图片,文本文件和图片文件都以院士的姓名为文件名。

步骤

1.使用浏览器打开网页:

在这里插入图片描述在这里插入图片描述

2.查看网页源代码
在这里插入图片描述

3.编写爬虫:

import requests
import re
from multiprocessing import Process
import os


def run(a_url,headers):
    print("子进程ID号:%d\n" % (os.getpid()))  # os.getpid()进程ID
    # 获取院士详细资料的页面
    new_url = "http://www.cae.cn" + a_url
    r = requests.get(new_url
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值