今天是我实习的第二天,我们学习了爬虫应用开发,Requests库及其常用方法。适用于Python语言编写,基于Urllib开发,采用Apache2Licensed开源协议的HTTP库,可以帮助我们发送请求,获取请求响应的数据,如指定网页的HTTP内容。
大抵通用代码框架如下
import requests
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return "产生异常"
if __name__ == "__main__":
url="http://www.baidu.com"
print(getHTMLText(url))
可以用于QQ表情包图片爬取,也可以用于手机号码归属地查询。

2152

被折叠的 条评论
为什么被折叠?



