import requests 第一句首先调用requests库 然后使用try和except的框架,进行异常处理
然后就是用reques.get(url)来爬取内容
url通俗来讲就指的是你要爬取的网页链接
并且将其用一个变量r把其存储起来
r=requests.get("https://item.jd.com/100016960357.html")
(这个链接是某东的一个商品链接,你可以自我更换)
警戒值再用r.status_code,来查看爬取内容是否成功
print(r.status_code)
结果为200时,则爬取成功
如果结果为404或其他某些原因将会产生异常
紧接着我们又要让爬取的内容不乱码,能够被我们程序员认识
我们就要用r.encoding进行编码的转换
通常r.encoding后面转换为'utf-8'
也就是 r.encoding='utf-8'
转码之后
我们就可以正常查看所爬取的内容了
import requests
try:
r=requests.get("https://item.jd.com/100016960357.html")
print(r.status_code)
r.encoding='utf-8'
print(r.text[:1000])
except:
print('爬取错误')
爬出来的内容既然已经可以正常的读取了
我们可以=选择将其保存到文件内,方便我们对文件内容的使用
加一个f.write()函数,就可以了