2020-11-29 网络爬虫

本文介绍了网页爬取的基本概念,如URL、HTTP响应状态码,并详细阐述了Python中的urllib和requests库在网页内容抓取中的作用。requests库提供了便捷的get()方法用于请求网页内容,返回的response对象包含状态码、编码、内容等关键信息,还支持JSON解析和异常处理。通过学习,读者能掌握基础的网页爬取技巧。
  • 网页爬取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。

  • 请求网站并提取数据的自动化程序
    在这里插入图片描述

  • 所有HTTP响应的第一行都是状态行,依次是当前HTTP版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔
    在这里插入图片描述

  • URL是Uniform Resource Locator的缩写,即统一资源定位系统,也就是网址。URL 遵守一种标准的语法,它由协议、主机名、域名、端口、路径、以及文件名这六个部分构成

  • Python3.x标准库urllib提供了urllib.request、urllib.response、urllib.parse和urllib.error四个模块,很好地支持了网页内容读取功能。再结合Python字符串方法和正则表达式,可以完成一些简单的网页内容爬取工作,也是理解和使用其他爬虫库的基础

  • requests库包括URL获取、HTTP长连接和连接缓存、自动内容解码、文件分块上传、连接超时处理、流数据下载等功能

  • requests库的requests.get()方法功能是网络爬虫和信息提交

  • res=requests.get(url[,timeout=n])该函数返回的网页内容会保存为一个response对象。参数url必须采用HTTP或HTTPS方式访问,可选参数timeout用于设定每次请求超时时间

  • requests.get() 返回的response对象代表响应。response对象的主要属性如下:
    1.statuscode:返回HTTP请求的状态,200表示连接成功,404表示失败
    2.text:HTTP响应内容的字符串形式,即url对应的页面内容
    3.encoding:HTTP响应内容的编码方式
    4.content:HTTP响应内容的二进制形式

  • Response对象提供了两个方法。json():如果HTTP响应内容包含JSON格式数据,则该方法解析JSON数据。raise_for_status():如果status_code值不是200,则产生异常

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值