前期准备
需要下好一些包:
- request
- urllib3
- PyQuery
安装教程有很多,我就不过多描述了
值得一提的是PyQuery可以使用类似CSS选择器的方式选择标签,大大的提高了选择标签的效率
我使用了递归爬取组图只需要传入组图的第一页地址,和找到下一页地址就可以递归爬取了,直接看代码吧
import requests
import os
import time from requests.packages
import urllib3 from pyquery
import PyQuery as pq
def getNextPageUrl(doc):
linkList=doc("a")
nextUrl=""
for item in linkList.items():
a=item.text().strip()
temp=a[0:3]
# print(temp)