Requests库网络爬虫实战
实例一:京东商品页面的爬取
首先打开 京东页面:https://www.jd.com/ 选择一个商品,这个时候就得到了该商品的URL链接,接着按照以下程序进行编程:
import requests
r = requests.get("https://item.jd.com/2967929.html")
print(r.status_code)
print(r.encoding)
我们首先查看状态码信息,若为200则返回正确,可以获取该链接相应的内容,接着查看编码。完整的代码如下:
import requests
url="https://item.jd.com/2967929.html"
try: #判断是否存在异常,并对异常进行处理
r = requests.get(url) # 访问百度主页
r.raise_for_status() #如果转态不是200,引发HTTPError异常
r.encoding=r.apparent_encoding #使得返回内容的解码是正确的
print(r.text[:1000])
except:
print("爬取失败")
实例二:亚马逊商品页面的爬取
首先打开 亚马逊页面:https://www.amazon.cn/ 选择一个商品,这个时候就得到了该商品的URL链接,接着按照以下程序进行编程:
import requests
url="https://www.amazon.cn/"
try: #判断是否存在异常,并对异常进行处理
r = requests.get(url) # 访问百度主页
r.raise_for_status() #如果转态不是200,引发HTTPError异常
r.enc