本例使用urllib及re正则表达式,爬取网页上(王俊凯百度百科)所有以jpg结尾的图片,并保存本地。
import re
from urllib.request import urlopen
if __name__ == '__main__':
url = r'https://baike.baidu.com/item/%E7%8E%8B%E4%BF%8A%E5%87%AF/75850?fr=aladdin'
# 读取网页内容,并指定解码方式
buff = urlopen(url).read().