Requests库的使用-爬取HTML页面

最新推荐文章于 2024-04-26 15:09:14 发布

原创最新推荐文章于 2024-04-26 15:09:14 发布 · 868 阅读

1 ·

CC 4.0 BY-SA版权

Python爬虫专栏收录该内容

12 篇文章

订阅专栏

本文介绍了一种使用Python进行网页抓取的方法，通过定义get_page函数，利用requests库获取指定URL的HTML页面内容，并处理可能出现的异常情况。该方法适用于初学者了解网页抓取的基本流程。

def get_page(url):
    try:
        header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36'}
        r = requests.get(url, headers=header)
        r.raise_for_status()
        print(r.text)
    except:
        print("出现异常")

if __name__ == '__main__':
    url = input("请输入网址: ")
    get_page(url)
# input: https://www.baidu.com
# output: html页面内容