4、利用Request和Beautiful Soup抓取指定URL内容

最新推荐文章于 2023-09-12 15:59:48 发布

原创

最新推荐文章于 2023-09-12 15:59:48 发布 · 2.7k 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Python3.5中的Request组件抓取网页内容。通过简单的四行代码示例，展示了如何获取并打印指定URL的源代码，解释了HTTP的请求-响应机制，并提到了Response对象的raise_for_status()方法处理错误响应。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。

　　类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。

　　在Python3.5中，我们使用Request这个组件来抓取网页。

　　Request是Python的一个获取URLs(Uniform Resource Locators)的组件。

　　它以get函数的形式提供了一个非常简单的接口。

　　最简单的Request的应用代码只需要四行。

　　我们新建一个文件test.py来感受一下Request的作用：

import requests
from bs4 import BeautifulSoup

#coding:utf-8

url = 'http://www.baidu.com'
try:
    response = requests.get(url)
#URLError
#通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。
except:
    data = {
        'url':url,
        'error_type':'requests.get.error'
    }
    print(data)